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在 目前 不 断 变 化 、 莲 勃发 展 的 中 国资 本 市 场 ， 量 化 投资 作为 新 兴 的 投资 方法 ， 引 来 越 来 越 多 的 关注 , 使 
用 量化 投资 技术 的 证 券 从 业 人 员 也 越 来 越 多 。 

本 书 分 为 11 章 , 内 容 包括 Python 环境 的 搭建 、 Python 数据 相关 类 库 的 使 用 、 掘 金 量化 终端 的 使 用 、Talib 
金融 库 的 详解 、 多 因子 策略 的 介绍 、 带 技术 指标 的 多 因子 策略 、 中 证 红利 指数 增强 策略 、 回 归 分 析 与 
TensorFlow、 回 归 模型 的 经 典 应 用 、 配 对 交易 的 魔力 等 。 
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量化 投资 是 一 种 新 兴 的 系统 化 的 金融 投资 方法 , 它 综合 利用 现代 金融 、 计算机、 数学 以 及 
其 他 相关 行业 的 知识 和 方法 包括 行为 学 、 心 理学 等 )， 把 投资 理念 、 科 学 理论 和 实际 数据 量 
化 为 客观 的 数理 模型 ， 使 用 计算 机 技术 完成 全 部 或 部 分 的 投资 决策 。 

由 于 量化 投资 需要 把 数据 、 策 略 、 系 统 、 执 行 4 个 方面 综合 起 来 形成 一 个 有 机 的 整体 ， 因 
此 想 使 用 量化 策略 去 对 金融 市 场 进行 分 析 的 投资 者 , 除了 需要 有 基本 的 计算 机 编程 知识 外 , 还 
需要 掌握 对 金融 市 场 的 分 析 , 研究 过 基本 的 投资 方法 。 目前 图 书市 场 上 关于 金融 投资 方面 的 图 
BARD, 但 多 数 投资 只 是 浅显 地 进行 讲解 ,过 于 注重 零碎 的 知识 点 和 心得 体会 。 本 书 以 实战 为 
宗旨 ， 通 过 不 同方 面 的 阶段 案例 ， 让 读者 全 面 、 深 入 、 透 彻 地 理解 量化 投资 的 原理 ， 提 高 实际 
开发 水 平和 项 目 实战 能 力 。 

本 书 是 基于 作者 2017-2018 年 参与 “北京 四 两 资本 ”与 “南京 红 树 林 〈 量 化 掘 金 )” 私 募 
项 目的 实战 工作 的 总 结 。 感谢 投资 人 兼 基金 经 理 谭 云 博士 给 我 的 很 多 指导 性 意见 ,感谢 黄 雪 雪 
女士 对 本 书 基础 工作 的 大 力 支持 , 也 感谢 夏 编辑 给 予 的 很 多 写作 意见 和 巨大 的 支持 和 鼓励 , 最 
后 感谢 吴 雪 女士 在 本 书 出 版 过 程 中 给 予 的 协助 。 


本 书写 作 特 色 


1. 详细 深入 的 解说 
为 了 便于 读者 理解 本 书 内 容 , 提 高 学 习 效 率 ， 本 书 从 最 基本 的 Python 程序 设计 开始 介绍 ， 
直到 使 用 专用 的 程序 工具 包 进 行 多 种 金融 投资 回 测 ， 便 于 初学 者 快速 入 门 。 


2. 原理 与 实战 结合 

为 了 让 有 一 定量 化 投资 技术 基础 的 读者 进一步 提升 自己 , 本 书 部 分 内 容 更 偏向 于 原理 的 讲 
解 ， 结 合 书 中 的 实战 案例 能 使 初级 量化 投资 者 快速 提高 自己 。 

3. 项 目 案例 典型 ， 实 战 性 强 ， 有 较 高 的 应 用 价值 

本 书 使 用 项 目 实战 案例 进行 解说 , 这 些 案 例 来 源 于 作者 所 开发 的 实际 项 目 , 具有 很 高 的 应 
用 价值 和 参考 性 。 学习 这 些 案 例 便于 读者 把 所 介绍 的 技术 融会 贯通 , 部 分 案例 稍 加 修改 , 便 可 
用 于 实际 项 目 开发 中 。 


本 书 内 容 


第 1、2 章 程序 设计 语言 的 基本 介绍 

第 1、2 章 是 本 书 的 基本 内 容 ， 包 括 程 序 设计 语言 Python 的 基本 介绍 和 安装 ， 以 及 使 用 专 
用 编辑 器 (IDE) PyCharm 进行 程序 设计 的 方法 。 此 外 ， 还 介绍 了 部 分 统计 学 习 方 法 ， 为 后 续 
的 内 容 打下 基础 。 

第 3-5 章 量化 掘 金 的 基本 使 用 

第 3-5 章 介绍 了 量化 掘 金工 具 包 的 安装 和 专用 编辑 器 的 使 用 ， 以 及 专用 金融 工具 分 析 包 
Talib (官网 名 为 TA-Lib， 遵 从 中 国 用 户 的 习惯 ， 本 书 称 为 Talib) 的 使 用 。 


第 6、7 章 多 因子 策略 介绍 和 应 用 

第 6、7 章 是 本 书 首要 讲述 的 重点 内 容 ， 主 要 介绍 量化 投资 中 最 重要 的 分 析 方 法 一 一 多 因 
子 策略 , 详细 介绍 了 基本 面 多 因子 以 及 技术 分 析 多 因子 策略 , 以 及 综合 运用 多 因子 策略 进行 基 
金 组 合 的 设计 。 

第 8~11 章 ”回归 分 析 和 应 用 

第 8~11 章 主 要 介绍 回归 分 析 的 使 用 以 及 使 用 其 进行 量化 投资 的 方法 ， 并 且 额 外 介绍 了 一 
种 单独 的 投资 方法 一 一 配对 交易 。 这 些 都 是 量化 投资 最 基本 的 策略 方法 。 


源码 及 相关 资源 下 载 地 址 


本 书 配套 的 示例 源码 及 相关 资源 下 载 地 址 可 以 通过 扫描 
右边 的 二 维 码 获 取 。 

如 果 下 载 有 问题 ， 或 者 对 本 书 内 容 有 建议 和 疑问 ， 请 联 
系 booksaga@163.com， 邮 件 主题 为 “Python 量化 交易 实战 ”。 
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“量化 ”这 个 词 来 自 于 数字 图 像 处 理 ， 指 的 是 把 经 过 抽样 得 到 的 瞬时 值 进行 幅度 离散 ， 
即 用 一 组 规定 的 电 平 把 瞬时 抽样 值 用 最 接近 的 电 平 值 表 示 出 来 ， 如 图 1-1 所 示 。 经 过 抽样 的 
图 像 只 是 在 空间 上 被 离散 成 像素 (样本 ) 的 阵列 。 he Mh 
值 的 连续 变化 量 ， 必 须 将 其 转化 为 有 限 个 离散 值 ， 赋 予 不 同 码 字 才能 真正 成 为 数字 图 像 。 
种 转化 称 为 量化 。 


m Analog signal 


= Digitized signal 


11 量化 一 数字 信号 处 理 
而 将 量化 用 于 投资 的 历史 已 经 无 法 追溯 。 从 “ 按 数据 买 股票 的 第 一 个 人 ”依照 自己 的 判 
断 听取 “ 卖 股票 的 人 ”介绍 想 要 推销 标的 的 芥 利和 增长 状况 时 ， 量 化 已 经 产生 。 投 资 人 依照 
自己 的 认 知 和 对 数据 的 掌握 做 出 买卖 决定 的 想法 ， 就 是 量化 的 雏形 。 


量化 投资 的 诞生 背景 


接触 过 资本 市 场 的 人 ， 大 都 听 说 过 基本 面 投资 和 价值 投资 ， 这 方面 的 天 才 人 物 “ 股 神 ” 
巴菲特 更 是 几乎 家 喻 户 晓 ， 妇 到 皆 知 。 他 以 企业 财务 报表 的 分 析 见 长 ， 擅 长 挖掘 企业 的 内 在 
价值 ， 一 旦 买 入 便 长 期 持 有 ， 持 续 获得 稳定 高 额 收益 ， 为 股东 创造 了 丰厚 利润 ， 无 人 能 
但 并 不 是 人 人 都 能 成 为 巴菲特 ， 那 需要 长 时 间 的 认 知 积累 、 敏 锐 的 判断 和 丰富 的 经 验 。 
世纪 90 年 代 ， 使 用 量化 工具 进行 股票 和 期 货 买 卖 的 西蒙 斯 〈 见 图 1-20 横 空 出 世 ， 不 久 就 
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被 称 为 最 能 赚钱 的 基金 经 理 人 ， 在 20 年 的 时 间 里 ， 他 创造 了 年 均 净 回报 率 高 达 35% 的 惊人 
传奇 ， 而 他 使 用 的 就 是 量化 投资 技术 。 


图 1-2 詹姆斯 * 西蒙 斯 


但 是 ， 没 有 前 期 来 自 象牙 塔 的 现代 金融 理论 ， 没 有 其 他 大 师 的 相关 研究 ， 便 没有 量化 投 
资 的 兴起 ， 西 蒙 斯 的 成 功 也 就 无 从 谈 起 。 

夏普 1963 年 1 月 提出 了 “投资 组 合 的 简化 模型 ”， 一 般 称 为 “单一 指数 模型 ”。 1964 
年 ， 夏 普 又 发 展 出 了 资本 资产 定价 模型 (CAPM) ， 这 是 他 最 重要 的 突破 ， 这 个 模型 不 仅 可 
以 作为 预测 风险 和 预期 回报 的 工具 ， 还 可 以 衡量 投资 组 合 的 绩效 ， 以 及 衍生 出 在 指数 型 基 
金 、 企 业 财务 和 企业 投资 、 市 场 行为 和 资产 评价 等 多 领域 的 应 用 和 理论 创新 。 

1976 年 ， 罗 斯 在 CAPM 的 基础 上 提出 了 “套利 定价 理论 ” CAPTO ， 提 供 一 个 方法 评估 
影响 股价 变化 的 多 种 经 济 因 素 。 布 莱克 和 斯 克 尔 斯 提出 了 “期 权 定价 理论 ”。 莫 顿 则 发 明了 
“ 跨 期 的 资本 资产 定价 模型 ”。 

有 趣 的 是 ， 不 少 人 最 初 并 非 经 济 学 家 ， 如 巴 契 里 耶 和 布 莱克 原先 是 数学 家 ， 夏 普 则 从 事 
医学 ， 奥 斯 伯 恩 为 天 文学 家 ， 沃 金 与 坎 德尔 是 统计 学 家 ， 而 特 雷 诺 则 是 数学 家 兼 物理 学 家 。 
他 们 转行 都 是 因为 被 金融 市 场 研究 深 深 吸引 ， 沉 迷 于 其 中 的 无 穷 魅 力 。 

量化 投资 不 会 出 现在 个 人 投资 者 为 主 的 时 代 。 个 人 投资 者 既 缺 乏 闲暇 的 时 间 ， 也 普遍 
无 此 技术 能 力 。 同 时 随 着 退休 基金 和 共同 基金 资产 的 大 幅 增加 ， 财 富 基金 逐渐 取代 个 人 投 
资 者 成 为 市 场 上 的 主要 投资 者 ， 并 委托 专业 机 构 进行 投资 管理 和 操作 。 管 理 大 规模 资产 需 
要 新 的 运作 方式 和 金融 创新 技术 ， 同 时 专业 的 投资 管理 人 也 有 能 力 和 精力 专注 地 研究 、 运 
用 这 些 技术 。 

没有 发 达 的 电脑 技术 ， 量 化 投资 将 成 为 无 源 之 水 ， 无 本 之 木 。 在 电脑 革命 发 生前 ， 根 本 
无 法 根据 上 述 模型 进行 运算 。1961 年 ， 获 得 1990 年 诺 贝尔 奖 的 夏普 曾 说 ， 当 时 即使 是 用 
IBM 最 好 的 商用 电脑 ， 解 出 含有 100 只 证 券 的 问题 也 需要 33 分 钟 。 当 今 ， 面 对 数不胜数 的 
证 券 产 品 以 及 庞大 的 成 交 量 ， 缺 少 了 先进 电脑 的 运算 速度 和 容量 ， 许 多 复杂 的 证 券 定 价 甚至 


不 可 能 完成 。 

1973-1974 年 ， 美 国债 券 市 场 和 股票 市 场 全 面 衣 盘 ， 明 星 基金 经 理 人 烟消云散 ， 财 富 缩 
水 堪 比 30 年 代 大 萧条 时 期 。 当 时 ， 颇 有 先 见 的 投资 顾问 兼作 家 彼得 - 伯 恩 斯 坦 认 为 ， 必 须 采 
用 更 好 的 方法 管理 投资 组 合 ， 因 此 他 创办 了 《投资 组 合 》 和 杂志， 一 出 刊 便 获 得 成 功 。 此 后 ， 
随 着 80 年 代 以 来 各 类 证 券 和 期 权 类 产品 的 丰富 和 交易 量 的 大 增 ， 量 化 投资 光彩 炫目 ， 但 它 同 
时 也 具有 魔鬼 般 的 力量 。 

1987 年 10 月 大 股灾 ， 黑 色 星期 一 ， 当 天 股市 和 期 货 成 交 量 高 达 令 人 吃惊 的 410 亿美 
元 ， 价 值 瞬间 缩水 6000 亿美 元 。 很 多 股份 直接 通过 电脑 而 不 是 经 由 交易 所 交易 。 一 些 采 用 投 
资 组 合 保险 策略 的 公司 ， 在 电脑 模式 的 驱使 下 ， 不 问 价 格 ， 机 械 地 卖 出 股票 。 很 多 交易 员 清 
楚 这 些 投资 组 合 会 有 大 单 卖 出 ， 宁 愿 走 在 前 面 争 相 出 逃 ， 加 剧 了 恺 慌 。 针 对 整个 投资 组 合 而 
非 单个 证 券 ， 机 械 式 的 交易 、 电 脑 的 自动 操作 使 得 这 种 量化 投资 出 现 助 跌 之 效 ， 大 量 的 空 单 
在 瞬间 涌 出 ， 将 市 场 彻 底 砸 垮 。 

虽然 麻烦 不 断 ， 但 量化 投资 依然 必要 且 有 效 。 要 知道 ， 在 金融 危机 发 生前 ， 量 化 基金 的 
表现 连续 8 年 超过 其 他 投 次 方式。 当然， 挫折 也 会 带 来 量化 投资 技术 的 更 新 和 完善 ， 比 如 在 
模型 中 设 定 新 的 变量 ， 尤 其 是 加 入 以 往 并 未 包含 的 宏观 经 济 参数 。 时 过 境 迁 ， 从 2017 年 开 
始 ， 量 化 基金 再 次 表现 优异 。 虽 然 量 化 投资 能 否 就 此 再 度 复兴 仍 属 未 知 ， 一 旦 趋势 形成 就 会 
不 可 逆转 ， 量 化 投资 依然 拥有 光明 的 未 来 。 


1.2 量化 投资 的 特点 


量化 投资 并 非 只 可 远 观 而 不 可 襄 玩 ， 在 本 质 上 它 和 传统 投资 是 相同 的 ， 二 者 都 是 基于 市 
场 非 有 效 或 弱 有 效 的 理论 基础 之 上 ， 而 投资 经 理 可 以 通过 对 个 股 估 值 、 成 长 等 基本 面 的 分 析 
研究 建立 战胜 市 场 ， 产 生 超 额 收益 的 组 合 。 不 同 的 是 ， 传 统 投资 管理 较 依 赖 对 上 市 公司 的 调 
研 ， 以 及 基金 经 理 个 人 的 经 验 及 主观 的 判断 ， 而 定量 投资 管理 则 是 “定性 思想 的 量化 应 
用 ”， 更 加 强调 数据 。 

量化 投资 有 以 下 几 个 优点 


1. 纪律 性 
所 有 的 决策 都 是 依据 模型 做 出 的 。 量 化 投资 中 一 般 有 三 个 模型 


@ 大 类 资产 配置 模型 根据 大 类 资产 配置 决定 股票 和 债券 的 投资 比例 。 
€ 行业 模型 ， 按 照 行业 配置 模型 确定 超 配 或 低 配 的 行业 。 
© 股票 模型 ， 依 靠 股票 模型 挑选 股票 。 


纪律 性 首先 表现 在 依靠 模型 和 相信 模型 ， 每 一 天 决策 之 前 ， 首 先 要 运行 模型 ， 根 据 模型 
的 运行 结果 进行 决策 ， 而 不 是 赁 感觉 。 
可 能 有 读者 会 提出 疑问 ， 模 型 出 错 怎么 办 ? 不 可 和 否认， 模型 可 能 出 错 ， 就 像 医生 可 能 误 
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诊 一 样 。 但 是 ， 在 大 概率 下 ， 医 生 是 不 会 出 错 的 ， 同 样 地 ， 模 型 在 大 概率 下 也 是 不 会 出 错 
的 ， 所 以 ， 还 是 需要 相信 模型 。 

纪律 性 的 好 处 很 多 ， 可 以 克服 人 性 的 弱点 ， 如 贪 禁 、 恐 惧 、 伐 幸 心理 ， 也 可 以 克服 认 知 
偏差 ， 行 为 金融 理论 在 这 方面 有 许多 论述 。 纪 律 性 的 另 一 个 好 处 是 可 跟踪 。 量 化 投资 作为 一 
种 定性 思想 的 理性 应 用 ， 客 观 地 在 组 合 中 体现 这 样 的 组 合 思想 。 一 个 好 的 投资 方法 应 该 是 一 
个 “透明 的 盒子 ”。 

这 样 做 的 好 处 是 每 一 个 买卖 决策 都 是 有 理 有 据 的 ， 特 别 是 有 数据 支持 的 。 当 打开 模型 
时 ， 模 型 会 显示 当时 选择 的 这 只 股票 与 其 他 的 股票 相 比 在 成 长 面 上 、 估 值 上 、 动 量 上 、 技 术 
指标 上 的 得 分 情况 ， 这 个 评价 是 非常 全 面 的 ， 只 有 汇总 得 分 比 其 他 得 分 高 才 有 说 服 力 。 


2. 系统 性 

系统 性 具体 表现 为 “三 多 ”: 

© 首先 表现 在 多 层次 ， 包 括 在 大 类 资产 配置 、 行 业 选择 、 精 选 个 股 三 个 层次 上 都 有 对 

应 的 取舍 模型 。 

e ”其 次 是 多 和 角度， 定量 投资 的 核心 投资 思想 包括 宏观 周期 、 市 场 结构 、 估 值 、 成 长 、 

盈利 质量 、 分 析 师 盈利 预测 、 市 场 情 绪 等 多 个 角度 。 

© 再 者 就 是 多 数据 ， 就 是 海量 数据 的 处 理 。 

人 脑 处 理 信息 的 能 力 是 有 限 的 ， 当 一 个 资本 市 场 只 有 100 只 股票 时 ， 对 定性 投资 基金 经 
理 是 有 优势 的 ， 他 可 以 深刻 分 析 这 100 家 公司 。 但 在 一 个 很 大 的 资本 市 场 ， 比 如 有 成 千 上 万 
只 股票 的 时 候 ， 强 大 的 定量 投资 的 信息 处 理 能 力 能 反映 它 的 优势 ， 捕 捉 更 多 的 投资 机 会 ， 拓 
展 更 大 的 投资 机 会 。 


3. 套利 思想 

定量 投资 正 是 在 找 估 值 洼地 ， 通 过 全 面 、 系 统 性 的 扫描 捕捉 错误 定价 、 错 误 估 值 带 来 的 
机 会 。 定 性 投资 经 理 大 部 分 时 间 在 琢磨 哪 一 个 企业 是 伟大 的 企业 ， 哪 个 股票 是 可 以 翻 倍 的 股 
票 ; 与 定性 投资 经 理 不 同 ， 定 量 基 金 经 理 大 部 分 精力 花 在 分 析 哪 里 是 估 值 洼地 ， 哪 一 个 品 
被 低估 了 ， 买 入 低估 的 ， 卖 出 高 估 的 。 

4. 概率 取胜 

表现 为 两 个 方面 : 


€ ”一 是 定量 投资 不 断 地 从 历史 中 挖掘 有 望 在 未 来 重复 的 规律 并 且 加 以 利用 .。 
@ ”二 是 依靠 一 组 股票 取胜 ， 而 不 是 一 个 或 几 个 股票 取胜 。 
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无 意义 。 


A , 
© ”量化 投资 的 应 用 
量化 投资 主要 应 用 于 以 下 几 个 方面 。 


1. 量化 择 时 


股市 的 可 预测 性 问题 与 有 效 市 场 假 说 密切 相关 。 如 果 有 效 市 场 理 论 或 有 效 市 场 假说 成 
股票 价格 充分 反映 了 所 有 相关 的 信息 ， 价 格 变 化 服从 随机 游 走 ， 股 票 价格 的 预测 就 会 毫 


众多 的 研究 发 现 ， 股 市 的 指数 收益 中 存在 经 典 线性 相关 之 外 的 非 线性 相关 ， 和 貌似 随机 、 


杂乱 ， 但 在 其 复杂 表面 的 背后 却 隐藏 着 确定 性 的 机 制 ， 因 此 存在 可 预测 成 分 。 


2. 股指 期 货 
股指 期 货 套利 是 指 利用 股指 期 货 市 场 存在 的 不 合理 价格 ， 同 时 参与 股指 期 货 与 股票 现货 


市 场 交 易 ， 或 者 同时 进行 不 同期 限 、 不 同 〈 但 相近 ) 类 别 股票 指数 合约 交易 ， 以 赚 取 差价 的 
行为 。 股 指 期 货 套利 主要 分 为 期 现 套利 和 跨 期 套利 两 种 。 股 指 期 货 套利 的 研究 主要 包括 现货 
构建 、 套 利 定价 、 保 证 金管 理 、 冲 击 成 本 、 成 分 股 调整 等 内 容 。 


利 


3. 商品 期 货 
商品 期 货 套利 芥 利 的 逻辑 原理 基于 以 下 几 个 方面 : 


相关 商品 在 不 同 地 点 、 不 同时 间 ， 对 应 都 有 一 个 合理 的 价格 差价 。 
由 于 价格 的 波动 性 ， 价 格 差价 经 常 出 现 不 合理 。 

不 合理 必然 要 回 到 合理 。 

不 合理 回 到 合理 的 这 部 分 价格 区 间 就 是 盈利 区 间 。 


4. 统计 套利 

有 别 于 无 风险 套利 ， 统 计 套利 是 利用 证 券 价格 的 历史 统计 规律 进行 套利 ， 是 一 种 风险 套 

其 风险 在 于 这 种 历史 统计 规律 在 未 来 一 段 时 间 内 是 否 继续 存在 。 

统计 套利 在 方法 上 可 以 分 为 两 类 : 

e ”一 类 是 利用 股票 的 收益 率 序 列 建 模 ， 目 标 是 在 组 合 的 Beta 值 等 于 零 的 前 提 下 实现 
Alpha 收益 ， 我 们 称 之 为 Beta 中 性 策略 。 

@ 另 一 类 是 利用 股票 价格 序列 的 协 整 关系 建 模 ， 我 们 称 之 为 协 整 策略 。 

5. 期 权 套 利 

期 权 套 利 交易 是 指 同时 买 进 卖 出 同一 相关 期 货 但 有 不 同 的 敲定 价格 ， 或 不 同 到 期 月 份 的 


看 涨 或 看 跌 期 权 合约 ， 希 望 在 日 后 对 冲 交 易 部 位 或 履约 时 获 利 的 交易 。 期 权 套 利 的 交易 策略 
和 方式 多 种 多 样 ， 是 多 种 相关 期 权 交易 的 组 合 ， 有 具体 包括 水 平 套利 、 垂 直 套利 、 转 换 套 利 、 


反 向 转换 套利 、 跨 式 套 利 、 蝶 式 套利 、 飞 鹰 式 套利 等 。 

6. 算法 交易 

算法 交易 又 被 称 为 自动 交易 、 黑 盒 交 易 或 者 机 器 交易 ， 它 指 的 是 通过 计算 机 程序 来 发 出 
交易 指令 。 在 交易 中 ， 程 序 可 以 决定 的 范围 包括 交易 时 间 的 选择 、 交 易 的 价格 ， 甚 至 可 以 包 
括 最 后 需要 成 交 的 证 券 数 量 。 根 据 各 个 算法 交易 中 算法 的 主动 程度 不 同 ， 可 以 把 不 同 算法 交 
易 分 为 被 动 型 算法 交易 、 主 动 型 算法 交易 、 综 合 型 算法 交易 三 大 类 。 

7. 资产 配置 

资产 配置 是 指 资产 类 别 选 择 ， 投 资 组 合 中 各 类 资产 的 适当 配置 以 及 对 这 些 混 合资 产 进 行 
实时 管理 。 量 化 投资 管理 将 传统 投资 组 合理 论 与 量化 分 析 技 术 结 合 ， 极 大 地 丰富 了 资产 配置 
的 内 涵 ， 形 成 了 现代 资产 配置 理论 的 基本 框架 。 

它 突破 了 传统 积极 型 投资 和 指数 型 投资 的 局 限 ， 将 投资 方法 建立 在 对 各 种 资产 类 股票 公 
开 数 据 的 统计 分 析 上 ， 通 过 比较 不 同 资产 类 的 统计 特征 建立 数学 模型 ， 进 而 确定 组 合资 产 的 
配置 目标 和 分 配 比 例 。 


| © 量化 投资 在 我 国 股市 的 发 展 前 景 


首先 ， 相 较 于 海外 成 熟 市 场 ， 我 国 股票 市 场 的 发 展 历史 较 短 ， 投 资 者 队伍 参差 不 齐 ， 投 
资 理念 还 不 够 成 熟 ， 留 给 主动 投资 发 掘 市 场 非 有 效 性 ， 产 生 阿 尔 法 的 潜力 和 空间 也 更 大 。 

总 体 来 说 ， 国 内 的 量化 投资 整体 还 处 于 起 步 阶段 ， 不 像 国 外 那样 成 熟 。 但 好 在 国内 的 资 
本 市 场 没有 完全 放 开 ， 而 且 期 指 、 期 权 等 对 冲 手段 也 不 够 成 熟 ， 很 多 品种 还 是 T+1 交易 ， 即 
便 国外 对 冲 基金 进来 也 需要 修改 策略 来 适应 国内 的 资本 市 场 ， 所 以 国内 的 量化 投资 者 们 还 是 
有 很 多 投资 机 会 的 ， 还 有 一 定 的 时 间 可 以 充分 吸收 国外 已 有 的 知识 和 模型 ， 从 而 做 出 更 好 的 
量化 投资 模型 。 


oo Ihe 


本 章 讲述 了 量化 投资 的 诞生 背景 、 特 点 、 应 用 范围 ， 并 简单 介绍 了 量化 投资 在 我 国 股市 
的 发 展 前 景 。 读 者 掌握 这 些 内 容 能 对 量化 投资 的 概念 和 方法 有 个 基本 的 印象 。 


< Python 的 安装 与 使 用 > 


“人 生 苦 短 ， 我 用 Python” 

这 是 Python 在 自身 宣传 和 推广 中 使 用 的 口号 ， 做 投资 也 是 这 样 的 ， 简 单 朴素 的 投资 策略 
和 思想 永远 是 最 好 的 。 

对 于 相关 研究 人 员 ， 最 直接 、 最 简洁 的 需求 就 是 将 自己 的 想法 从 纸 面 进化 到 可 以 运行 的 
计算 机 代码 ， 在 这 个 过 程 中 ， 所 需 花费 的 精力 越 少 越 好 。 

Python 完全 可 以 满足 这 个 需求 ， 在 计算 机 代码 的 编写 和 实现 过 程 中 ，Python 简洁 的 语言 
设计 本 身 可 以 帮助 用 户 避 开 没 必要 的 陷阱 ， 减 少 变量 声明 ， 随 用 随 写 ， 无 须 对 内 存 进行 释 
放 ， 这 些 都 可 以 极 大 地 帮助 用 户 使 用 Python 编写 出 需要 的 程序 。 

其 次 ，Python 的 社区 开发 成 熟 ， 有 非常 多 的 第 三 方 类 库 可 以 使 用 。 在 本 章 中 还 会 介绍 
NumPy、PIL 以 及 threading 三 个 主要 的 类 库 ， 这 些 开源 的 算法 类 库 在 后 面 的 程序 编写 过 程 中 
会 起 到 极 大 的 作用 。 

最 后 ， 相 对 于 其 他 语言 ，Python 有 较 高 的 运行 效率 ， 而 且 得 益 于 Python 开发 人 员 的 不 懈 
努力 ，Python 友好 的 接口 库 甚至 可 以 加 速 程序 的 运行 效率 ， 而 无 须 去 了 解 底层 的 运行 机 制 。 

“NEWER MAH Python”。Python 让 其 使 用 者 5 注 于 过 加 和 算法 本 务 而 万 须 亿 条 : 
些 技术 细节 Elia 作为 深度 学 习 以 及 TensorFlow 框架 主要 的 编程 语言 ， 更 需要 读者 去 掌握 
与 学 习 。 


Python 的 基本 安装 和 用 法 


Python 是 深度 学 习 的 首选 开发 语言 ， 但 是 对 于 安装 来 说 ， 很 多 第 三 方 提供 了 集成 大 量 科 
学 计算 类 库 的 Python 标准 安装 包 ， 而 最 常用 的 是 Anaconda。 

Anaconda 里 面 集成 了 很 多 关于 Python 科学 计算 的 第 三 方 库 ， 主 要 是 安装 方便 ， 而 
Python 是 一 个 脚本 语言 ， 如 果 不 使 用 Anaconda， 那 么 第 三 方 库 的 安装 会 较为 困难 ， 各 个 库 之 
间 的 依赖 性 就 很 难 连接 得 很 好 。 因 此 ， 在 这 里 推荐 使 用 集合 了 大 量 第 三 方 类 库 的 安装 程序 
Anaconda 来 蔡 代 Python 的 安装 


2. 


1.1 Anaconda 的 下 载 与 安装 


1. 下 载 和 安装 
Anaconda 的 下 载 地 址 是 https://www.continuum.io/downloads/, 页 面 如 图 2-1 所 示 。 


Additionally, you'll have access to over 720 packages that can easily be installed which contains only. ] 
with conda, our renowned package, dependency and environment manager, the individual 
that is included in Anaconda, see the packages Included with Anaconda and the t the conda command. 
Anaconda changelog 
Download for Windows Download for macos Download for Linux 
Anaconda 4.3.1 Python 3.6 version 
For Windows 64-BIT INSTALLER 


IZAT INSTALLER (348M) 
Changelog 


1. Download the installer 
2. Optional: Verify data integrity with MDS or SHA-256 More 
ijo Python 2.7 version 
3. Doubleclick the exe file to install Anaconda and Follow the 
inatruchons on the sereen 


64-BIT INSTALLER (4146) 


Behind a Firewall? Use these zipped Windows installers 


fA 2-1 Anaconda 下 载 页 面 
本 书 使 用 的 是 Anaconda 4.3.1 版 本 ， 里 面 集成 了 Python 3.6。 读 者 可 以 根据 自己 的 操作 系 


统 进行 下 载 。 


以 


这 里 作者 选择 的 是 Windows 版 本 ， 单 击 “ 运 行 ” 即 可 安装 ， 与 普通 软件 一 样 。 安 装 完成 
后 ， 出 现 程序 面板 ， 目 录 如 图 2-2 所 示 。 


O Anaconda Cloud (py35) 

O Anaconda Cloud 

IO Anaconda Navigator (py35) 
Ù Anaconda Navigator 

Mill Anaconda Prompt (py35) 
Mill Anaconda Prompt 

IP IPython (py35) 

IP Python 

二 Jupyter Notebook (py35) 
= Jupyter Notebook 

= Jupyter QTConsole (py35) 
= Jupyter QTConsole 

€ Reset Spyder Settings (py35) 
® Reset Spyder Settings 

€ Spyder (py35) 

€ Spyder 


图 2-2 Anaconda 安装 目录 


2. 打开 控制 台 
之 后 依次 单 击 : 开始 一 所 有 程序 一 Anaconda 一 Anaconda Prompt， 打 开 窗 口 的 效果 如 图 2-3 


所 示 。 这 些 步骤 和 打开 CMD 控制 台 类 似 ， 输 入 命令 就 可 以 控制 和 配置 Python。 在 Anaconda 
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中 最 常用 的 是 conda 命令 ， 这 个 命令 可 以 执行 一 些 基 本 操作 。 


m- Anaconda Prompt Sic 


(C :NaMDNanaconda3) C:\Us 


图 2-3 Anaconda Prompt 控制 台 


3. 验证 Python 
之 后 在 控制 台中 输入 python， 打 印 出 版 本 号 以 及 控制 符号 ， 并 在 控制 符号 下 输入 代码 : 
print ("hello Python") 


结果 如 图 2-4 所 示 。 


一 一 — 
BI 管理 员 : Anaconda Promp 


(C:\AMD\Anaconda3) C:\Users\xiaohua>python 
Python 3.5.2 IAnaconda custom (G4-bit)| (default, Jul 5 2016, 11:41:13) [MSC v 
1900 64 bit (RMDG4)] on win32 
Type "help", "copyright". "credits" or “license” for more information 
110 Python") 


| 
图 2-4 ”验证 Anaconda Python 安装 成 功 

4. 使 用 conda 命令 

作者 建议 读者 使 用 Anaconda 的 好 处 在 于 ， 它 能 够 方便 地 帮助 读者 安装 和 使 用 大 量 第 三 


方 类 库 ， 查 看 已 安装 的 第 三 方 类 库 的 命令 是 : 
conda list 


在 Anaconda Prompt 控制 台中 输入 exit0 或 者 重新 打开 Anaconda Prompt 控制 台 后 直接 输 
入 conda list 命令 ， 结 果 如 图 2-5 所 示 。 


Bl SER Anaconda Prompt zm x 
(C : \AMD\An: nda3) Jsers\xiaohua>conda list 

# packages in envir: C: \AMD\Anacond: 

|a 


| license 


图 2-5 列 出 已 安装 的 第 三 方 类 库 
去 还 有 很 多 ， 其 中 最 重要 的 是 安装 第 三 方 类 库 ， 命 


Anaconda 中 使 用 conda 进行 操作 的 方 ; 
令 如 下 : 


conda install name 


这 里 的 name 是 需要 安装 的 第 三 方 类 库 名 ， 例 如 当 需 要 安装 NumPy 包 (这 个 包 已 经 安装 
过 ) 时 ， 输 入 相应 的 命令 : 


conda install numpy 


使 用 Anaconda 的 一 个 特别 的 好 处 是 ， 所 安装 的 包 的 依赖 类 库 可 以 自动 安装 ， 如 图 2-6 所 
示 ， 这 样 可 以 大 大 减轻 使 用 者 在 安装 和 使 用 某 个 特定 类 库 的 情况 下 造成 的 依赖 类 库 缺 失 的 困 
难 ， 使 得 后 续 工 作 顺 利 进行 。 


do install 
pywavelets: — 0.5.2-np112p z 


following packages will be 


astropy x 1.3.2-np1 12py35_0 
bottleneck X > 1.2.0-npl12pu35 8 
conda 35_1 17-py3 
.6.9-np111py35_ 5_ 
6 22-uct4_0 c14_6 [ue14] 
llumlite 13.0-py35_0 > 
matplotiib 5. 3-np111py35_0 
mkl: 3-1 
nunba: 28.1-npllipu35 0 
nunexpr 6. 1-np111py35_9 
nunpu: > y 
pandas 19, 2-np111py35_ 1-np112py 
pytables 2-np111py35 3.2.2-npl12py35 4 
Q.12.3-np111py 3. 6-np112py 
1-np112py35_1 
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0 
statsmodels 


Proceed ([y]/n)? y 


ink1-2017.0.1-0 | ETA: 6:24:62 92.71 kB/s Md 


图 2-6 自动 获取 或 更 新 依赖 类 库 


10 


2.1.2 Python 编译 器 PyCharm 的 安装 

和 其 他 语言 类 似 ，Python 程序 的 编写 可 以 使 用 Windows 自 带 的 控制 台 进 行 。 但 是 这 种 方 
式 对 于 较为 复杂 的 程序 工程 来 说 ， 容 易 混淆 相互 之 间 的 层级 和 交互 文件 ， 因 此 在 编写 程序 工 
程 时 ， 作 者 建议 使 用 专用 的 Python 编译 器 PyCharm. 


1. PyCharm 的 下 载 和 安装 


PyCharm 的 下 载 地 址 为 http://www.jetbrains.com/pycharm/ 。 
进入 Download 页 面 后 可 以 选择 不 同 的 版 本 ， 有 收费 的 专业 版 和 免费 的 社区 版 ， 如 图 2-7 
所 示 。 这 里 选择 免费 的 社区 版 即 可 。 


Professional Community 


Full-featured IDE a Lightweight IDE 
for Python & Web for Python & Scientific 
development development 


图 2-7 PyCharm 的 免费 版 
双击 运行 后 进入 安装 界面 ， 直 接 单 击 Next 按钮 采用 默认 安装 即 可 ， 如 图 2-8 所 示 。 


BB pycharm Community Edition Setup - x 


Welcome to the 

Community Edition Setup Wizard 

Tite ward wil da vou hroochi the talon oF Pycha 
Community Edit 

Itis recommended that you dose all other 

before starting Setup. This will make it eie etna 
relevant system files without having to reboot your 
computer. 

Click Next to continue. 


[ we» | | cancel 


2-8 PyCharm 的 安装 文件 


需要 注意 的 是 ， 在 安装 PyCharm 的 过 程 中 需要 对 安装 的 位 数 进行 选择 ， 这 里 建议 读者 选 
择 与 所 安装 Python 相同 位 数 的 文件 ， 如 图 2-9 所 示 。 
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Python 量化 交易 实战 


BB PyCharm Community Edition Setup 一 x 


Installation Options 
Configure your PyCharm Community Edition installation 


as ian 
2-9 PyCharm 的 位 数 选择 
安装 完成 后 出 现 Finish 按钮 ， 单 击 后 安装 完成 ， 如 图 2-10 所 示 。 


BB PyCherm Community Edition Setup - 


Completing the PyCharm Community 
Edition Setup Wizard 


PyCharm Community Editon has been installed on your 
computer, 


(Chick Finish to dose this wizard. 


口 Run PyCharm Community Editon 


Æ 2-10 PyCharm 安装 完成 


2. 使 用 PyCharm 创建 程序 
单 击 桌面 上 新 生成 的 圈 图 标 进入 PyCharm 程序 界面 ， 首 先是 第 一 次 启动 的 定位 ， 如 图 
2-11 所 示 。 


lou can import your settings from a previous version of PyChare, 


OE vant to inport my settings free a castes location 


Specify config folder or installation hose of the previous version of PyChare 


1 ee ee E EE] 
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3823€ Python 的 安装 与 使 用 


这 里 是 对 程序 存储 的 定位 ， 一 般 建 议 选择 第 二 个 ， 由 PyCharm 自动 指定 即 可 。 单 击 OK 按 
钮 ， 之 后 单 击 弹出 的 Accept 按钮 ， 接 受 相应 的 协议 ， 进 入 界面 配置 选项 ， 如 图 2-12 所 示 。 


|| IDE theme: 


| Editor colors and fonts: 


> Click to preview. 
You can use File | Settings to configure any of these settings later. 


E3 EE 


@ Configure » Get Help - 
Æ 2-12 PyCharm 界面 配置 


在 配置 区 域 可 以 选择 自己 的 使 用 风格 ， 对 PyCharm 的 界面 进行 配置 ， 如 果 对 其 不 熟悉 ， 
直接 单 击 OK 按钮 保持 默认 配置 即 可 。 
最 后 就 是 创建 一 个 新 的 工程 ， 如 图 2-13 所 示 。 


图 2-13 PyCharm 工程 创建 界面 
在 这 里 ， 建 议 读者 新 建 一 个 PyCharm 的 工程 文件 ， 如 图 2-14 所 示 。 
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”Python 量化 交易 实战 


区 es = 
Ble Edt View Navigate Code Refactor Run Tools VCS Window Help 
E pycharm > 
Pr o* er 
= Cisx 


2-M  PyCharm 新 建文 件 界面 


之 后 右 击 新 建 的 工程 名 “PyCharm”， 在 弹出 的 菜单 中 单 击 new- Python File， 新 建 一 个 
helloworld.py 文件 ， 内 容 如 图 2-15 所 示 。 


ÍS helloworld.py x | 
1 print("hello world") 


2-15. PyCharm 工程 创建 界面 


输入 代码 后 ， 单 击 rn 一 run... 菜 单 开始 运行 ， 或 者 直接 右 击 helloworld.py 后 ， 在 弹出 的 
菜单 中 选择 ran。 如 果 成 功 输出 “hello world" , WASK, Python 与 PyCharm 的 配置 就 
完成 了 。 

2.1.3 使 用 Python 计算 softmax 函数 

对 于 Python 科学 计算 来 说 ， 最 简单 的 想法 就 是 可 以 将 数学 公式 直接 表达 成 程序 语言 ， 可 
以 说 ，Python 满足 了 这 个 想法 。 本 小 节 将 使 用 Python 实现 和 计算 一 个 深度 学 习 中 最 为 常见 的 
函数 一 一 softmax 函数 。 至 于 这 个 函数 的 作用 现在 不 加 以 说 明 ， 这 里 只 是 带领 读者 尝试 实现 其 


程序 的 编写 。 
softmax 计算 公式 如 下 : 


= e i 
0 
其 中 瑟 是 长 度 为 j BC V BÉ 3G EUN softmax 的 结果 其 实 就 是 先 对 每 一 个 LH 


S. 
id 
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e 为 底 的 指数 计算 变 成 非 负 ， 然 后 除 以 所 有 项 之 和 进行 归 一 化 ， 之 后 每 个 V; 就 可 以 解释 成 观 
察 到 的 数据 所 属于 某 个 类 别 的 概率 ， 或 者 称 作 似 然 (Likelihood) 。 


Mila fob, H a>b， 如 果 简单 地 以 值 的 大 小 为 单位 衡量 的 话 ， 那 么 在 后 续 的 使 用 过 程 
F, a 永远 被 选用 ， 而 b 由 于 数值 较 小 而 不 会 被 选择 ， 但 是 有 时 候 也 需要 数值 小 的 b 被 : 
fmax 羡 可 以 解决 这 个 


softmax 按照 概率 选择 a Alb, HF a 的 概率 值 大 于 b， 在 计算 时 a 经 常会 被 选择 ， 而 b 
由 于 概率 较 小 ， 选 择 的 可 能 性 也 较 小 ， 但 是 也 有 概率 被 选择 。 
公式 softmax 的 代码 如 下 : 


import numpy 


def softmax (inMatrix): 

mn = numpy.shape (inMatrix) 

outMatrix = numpy.mat (numpy. zeros ( (m,n))) 

soft sum = 0 

for idx in range(0,n): 
outMatrix[0,idx] = math.exp(inMatrix[0,idx]) 
soft_sum += outMatrix[0,idx] 

for idx in range(0,n): 
outMatrix[0,idx] = outMatrix[0,idx] / soft_sum 


return outMatrix 
可 以 看 到 ， 当 传 入 一 个 数列 后 ， 分 别 计算 每 个 数值 所 对 应 的 指数 函数 值 ， 之 后 将 其 相 加 
后 ， 计 算 每 个 数值 在 数值 和 中 的 概率 。 
a = numpy.array([[1,2,1,2,1,1,3]]) 
结果 如 下 : 


[[ 0.05943317 0.16155612 0.05943317 0.16155612 0.05943317 0.05943317 
0. 43915506]] 


22 Python 常用 类 库 中 的 threading 


如 果 说 Python 的 简单 易 用 黄 定 了 Python 发 展 的 基石 ， 那 么 丰富 的 第 三 方 类 库 给 予 了 
Python 不 断 前 进发 展 的 动力 。 随 着 科技 的 发 展 ，Python 应 用 得 更 为 广泛 ， 更 多 涉及 不 同 种 类 
的 第 三 方 类 库 被 加 入 Python 中 。 

Python 常用 类 库 参 见 表 2-1。 
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表 2-1 Python 常用 类 库 


Matplotlib ”| 用 Python 实现 的 类 matlab 的 第 三 方 库 ， 用 以 绘制 一 些 高 质量 的 数学 二 维 图 形 


科学 计算 |Scipy 基于 Python 的 matlab 实现 ， 旨 在 实现 matlab 的 所 有 功能 
NumPy 基于 Python 的 科学 计算 第 三 方 库 ， 提 供 了 和 矩阵 、 线 性 代数 、 傅 立 叶 变换 等 解决 方案 
PyGtk 基于 Python 的 GUI 程序 开发 GTK+ 库 

pra PyQt 用 于 Python 的 QT 开发 库 


WxPython [Python 下 的 GUI 编程 框架 ， 与 MFC 的 架构 相似 
Tkinter Python 下 标准 的 界面 编程 包 ， 因 此 不 算是 第 三 方 库 


PIL 基于 Python 的 图 像 处 理 库 ， 功 能 强大 ， 对 图 形 文件 的 格式 支持 广泛 
MySQLdb ”| 用 于 连接 MySQL 数据 库 


高 性 能 XML 解析 库 ，Py2.5 应 该 已 经 包含 了 该 模块 ， 因 此 不 算 一 个 第 三 方 库 


基于 Python 的 多 媒体 开发 和 游戏 软件 开发 模块 


将 Python 脚本 转换 为 Windows 上 可 以 独立 运行 的 可 执行 程序 
Windows PE 文件 解析 器 


表 2-1 中 给 出 了 Python 中 常用 类 库 的 名 称 和 说 明 。 到 目前 为 止 ，Python 中 已 经 有 7000 
多 个 可 以 使 用 的 类 库 供 计算 机 工程 人 员 以 及 科学 研究 人 员 使 用 。 


2.2.1 threading 库 的 使 用 

对 于 希望 充分 利用 计算 机 性 能 的 程序 设计 者 来 说 ， 多 线程 的 应 用 是 一 个 必 不 可 少 的 技 
能 。 多 线程 类 似 于 使 用 计算 机 的 一 个 核心 执行 多 个 不 同 的 任务 。 多 线程 的 好 处 如 下 : 

e ”使 用 线程 可 以 把 需要 使 用 大 量 时 间 的 计算 任务 放 到 后 台 去 处 理 。 

@ 减少 资源 占用 ， 加 快 程序 的 运行 速度 。 

O 在 传统 的 输入 输出 以 及 网 络 收 发 等 普通 操作 上 ， 后 台 处 理 可 以 美化 当前 界面 ， 增 加 

界面 的 人 性 化 。 

下 面 将 详细 介绍 Python 中 操作 线程 的 模块 : threading， 相 对 于 Python 既 有 的 多 线程 模块 

thread，threading 重 写 了 部 分 API 模块 ， 对 thread 进行 了 二 次 封装 ， 从 而 大 大 提高 了 执行 效率 。 


2.2.2 threading 模块 中 最 重要 的 Thread 类 


Thread 是 threading 模块 中 最 重要 的 类 之 一 ， 可 以 使 用 它 来 创建 线程 。 其 具体 使 用 方法 是 
创建 一 个 threading.Thread 对 象 ， 在 它 的 初始 化 函数 中 将 需要 调用 的 对 象 作为 初始 化 参数 传 
入 ， 具 体 代码 如 【程序 2-1】 所 示 。 
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【程序 2-1】 


#coding = utf8 
import threading, time 
count = 0 
class MyThread (threading. Thread) : 
def init (self, threadName) : 
super (MyThread,self). init (name = threadName) 


def run(self): 
global count 
for i in range(100): 
count = count + 1 
time.sleep (0.3) 
print (self.getName() , count) 


for i in range(2): 
MyThread("MyThreadName:" + str(i)).start() 


在 作者 定义 的 MyThread 类 中 ， 重 写 了 从 父 对象 继 承 的 run 方法 ，run 方法 中 ， 将 一 个 全 
局 变量 逐一 增加 。 在 接 下 来 的 代码 中 ， 创 建 了 5 个 独立 的 对 象 ， 分 别 调用 其 start 方法 ， 最 后 
将 结果 逐一 打印 。 

可 以 看 到 在 程序 中 ， 每 个 线程 被 赋予 了 一 个 名 字 ， 然 后 设置 每 阳 0.3 秒 打印 输出 本 线程 
的 计数 ， 即 计数 加 1。 而 count 被 人 为 地 设置 成 全 局 共享 变量 ， 因 此 在 每 个 线程 中 都 可 以 自由 
地 对 其 进行 访问 。 

程序 运行 结果 如 图 2-16 所 示 。 


NyThreadName:0 
NyThreadName:1 
NyThreadName:1 
MyThreadName : 0 


NyThreadName:1 
MyThreadName : 0 
MyThreadName :1 
MyThreadName : 0 


图 2-16 程序 运行 结果 
通过 上 面 的 结果 可 以 看 到 ， 每 个 线程 都 起 了 一 个 对 应 的 名 字 ， 而 在 运行 的 时 候 ， 线 程 所 
计算 的 计数 同时 增加 。 这 样 可 以 证 明 ， 在 程序 运行 过 程 中 ， 两 个 线程 同时 对 一 个 数 进行 操 
作 ， 并 将 其 结果 进行 打印 。 
、 其 中 的 run 方法 和 start 方法 并 不 是 threading 自 带 的 方法 ， 而 是 从 Python 本 身 的 线程 处 
理 模 块 Thread 中 继承 来 的 。run 方法 的 作用 是 在 线程 被 启动 以 后 ， 执行 预先 写 入 的 程序 : 
代码 。 一 般 而 言 ，run 方法 所 执行 的 内 容 被 称 为 Activity, if stat 方法 是 用 于 启动 线程 的 : 


2.23 threading 中 的 Lock 类 


虽然 线程 可 以 在 程序 执行 的 过 程 中 极 大 地 提高 程序 的 执行 效率 ， 但 是 其 带 来 的 影响 却 难 
以 忽略 。 例 如 在 【程序 2-1】 中 ， 由 于 每 隔 一 定时 间 打印 当前 的 数值 ， 应 该 逐次 打印 的 数据 
变 成 了 两 个 相同 的 数值 被 打印 出 来 ， 因 此 需要 一 个 能 够 解决 这 类 问题 的 方案 。 

Lock 类 是 threading 中 用 于 锁定 当前 线程 的 锁定 类 ， 顾 名 思 义 ， 其 作用 是 对 当前 运行 中 
的 线程 进行 锁定 ， 只 有 被 当前 线程 释放 后 ， 后 续 线程 才 可 以 继续 操作 。 

类 中 主要 的 代码 如 下 : 


import threading 

lock = threading.Lock() 
lock.acquire () 
lock.release () 


acquire 方法 提供 了 确定 对 象 被 锁定 的 标志 ，release 在 对 象 被 当前 线程 使 用 完毕 后 将 当前 
对 象 释放 。 修 改 后 的 代码 如 【程序 2-2】 所 示 。 


【程序 2-2】 


#coding = utf8 
import threading, time, random 


count = 0 
class MyThread (threading.Thread) : 


def init (self,lock,threadName) : 
super (MyThread, self). init (name = threadName) 
self.lock = lock 


def run(self): 

global count 

self.lock.acquire() 

for i in range(100): 
count - count * 1 
time.sleep(0.3) 
print(self.getName() , count) 

self.lock.release() 


lock - threading.Lock() 
for i in range(2): 
MyThread (lock,"MyThreadName:" + str(i)).start() 


可 以 看 到 Lock 被 传递 给 MyThread， 并 在 run 方法 中 人 为 锁定 
当前 的 线程 ， 必 须 等 线程 执行 完毕 后 ， 后 续 的 线程 才 可 以 继续 执 
行 。 程 序 运行 结果 如 图 2-17 所 示 。 

可 以 看 到 ， 其 中 变色 的 部 分 ， 线 程 2 只 有 等 线程 1 完全 结束 
后 ， 才 执行 后 续 的 操作 。 本 程序 中 ，Thread1 等 到 Thread0 完全 结束 
后 ， 才 执行 第 二 个 操作 。 


myThreadName:0 98 


tyThreadName : C 


imyThreadName:0 100 


Ry ThreadName:l 101 
iy ThreadName:l 102| 
myThreadName:1 103 
myThreadName:1 104 


图 2-17 程序 运行 结果 
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2.2.4 threading 中 的 join 类 


join 类 是 threading 中 用 于 堵塞 当前 主线 程 的 类 ， 其 作用 是 阻止 全 部 的 线程 继续 运行 ， 直 
到 被 调用 的 线程 执行 完毕 或 者 超时 。 有 具体 代码 如 【程序 2-3】 所 示 。 


【程序 2-3】 


import threading, time 
def doWaiting(): 
print ('start waiting:', time.strftime('$S')) 
time.sleep (3) 
print ('stop waiting', time.strftime('%S')) 
threadl = threading.Thread(target = doWaiting) 
threadl.start() 


time.sleep(1) # 确 保 线程 thread1 已 经 启动 
print('start join') 
threadl.join() # 将 一 直 堵塞 ， 直 到 thread] 运行 结束 


print('end join') 
程序 的 运行 结果 如 图 2-18 所 示 。 
start waiting: 29 


start join 


stop waiting 32 


end join 


图 2-18 程序 运行 结果 


其 中 的 time 方法 设 定 了 当前 的 时 间 ， 当 join 启动 后 ， 堵 塞 了 调用 整体 进程 的 主 进 程 ， 而 
只 有 当 被 堵塞 的 进程 执行 完毕 后 ， 后 续 的 进程 才 继 续 执行 。 

除 此 之 外 ， 对 于 线程 的 使 用 ，Python 还 有 很 多 其 他 的 方法 ， 例 如 threading.Event、 
threading.Condition 等 ， 这 些 都 是 在 程序 设计 时 能 够 极 大 地 帮助 程序 设计 人 员 编写 合适 程序 的 
工具 。 限 于 篇 幅 ， 这 里 不 再 一 一 进行 介绍 ， 在 后 续 的 使 用 过 程 中 ， 作 者 会 带领 读者 了 解 和 掌 
握 更 多 的 相关 内 容 。 


y^ ew 2 J \ 结 


本 章 介绍 了 Python 的 基本 安装 和 编译 器 的 使 用 。 在 这 里 推荐 读者 使 用 PyCharm 免费 版 
作为 Python 编辑 器 ， 这 有 助 于 更 好 地 安排 工程 文件 的 配置 和 程序 的 编写 。 

同时 ， 本 章 中 还 介绍 了 最 常用 的 一 些 类 库 ， 这 里 只 是 对 线程 类 做 了 一 个 详细 的 介绍 ， 线 
程 类 是 Python 最 为 重要 的 一 个 类 库 ， 在 后 面 的 代码 编写 中 会 频繁 遇 到 。 

本 章 是 Python 最 基础 的 内 容 ， 后 面 的 章节 将 以 Python 的 使 用 为 主 ， 并 且 还 会 介绍 更 多 
的 Python 类 库 ， 和 希望 读者 能 够 掌握 相关 内 容 。 
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m3 


Python 类 库 的 使 用 一 一 数据 处 理 肥 
可 视 化 展示 


前 面 对 Python 的 安装 做 了 基本 的 介绍 ， 并 且 建 议 读者 使 用 PyCharm 免费 版 作为 使 用 
Python 编写 程序 的 编译 器 。 相 对 于 使 用 控制 台 或 自 带 的 编译 器 ， 可 以 更 加 直观 和 明晰 化 地 对 
所 构建 的 工程 做 出 层次 安排 。 

本 章 将 介绍 使 用 Python 对 数据 进行 处 理 和 可 视 化 。 对 于 大 多 数 的 Python 程序 设计 ， 建 
议 读者 使 用 已 有 的 类 库 解决 问题 而 不 是 自行 编写 相应 的 代码 。 这 是 初学 者 非常 易 犯 的 错误 ， 
对 于 Python 来 说 ， 大 多 数 的 类 库 都 是 在 底层 使 用 效率 更 高 的 C 语言 实现 的 ， 并 且 由 经 验 丰 
富 的 程序 设计 人 员 编 写 ， 因 此 不 建议 读者 自行 设计 和 完成 相应 的 程序 。 

本 章 将 着 重 介绍 几 个 常用 的 统计 学 类 库 ， 针 对 量化 投资 的 专用 类 库 将 在 后 面 的 章节 
介绍 。 

“人 生 苦 短 ， 我 用 Python! 编程 复杂 ， 请 用 类 库 ! ” 


从 小 例子 起 步 ， 本 节 将 介绍 NumPy 的 基础 使 用 。 


3.1.1 数据 的 矩阵 化 

对 于 数据 处 理 来 说 ， 数 据 是 一 切 的 基础 。 而 一 切 数据 又 不 是 单一 存在 的 ， 其 构成 往往 由 
很 多 的 特征 值 决定 。 表 3-1 是 用 以 计算 回归 分 析 的 房屋 面积 与 价格 对 应 表 ， 主 要 参数 为 面 
上 只 、 卧 室 以 及 地 下 室 的 个 数 等 。 


#31 某 地 区 房屋 面积 与 价格 对 应 表 


表 3-1 是 数据 的 一 般 表示 形式 ， 但 是 对 于 数据 处 理 的 过 程 来 说 ， 这 是 不 可 辨识 的 数据 ， 
因此 需要 对 其 进行 调整 。 
常用 的 数据 处 理 表示 形式 为 数据 矩阵 ， 即 可 以 将 表 3-1 表示 为 一 个 专门 的 矩阵 ， 见 表 3-2。 


R32 ” 某 地 区 房屋 面积 与 价格 计算 和 矩阵 


ID 
1 
2 
3 
4 
5 

从 表 3-2 中 可 以 看 到 ， 一 行 代表 一 个 单独 的 房屋 价格 和 对 应 的 特征 属性 。 第 一 列 是 ID, 

即 每 行 的 标签 。 标 签 是 独一无二 的 ， 一 般 不 会 有 重复 现象 。 第 二 列 是 价格 ， 一 般 被 称 为 矩阵 


的 目标 。 目 标 可 以 是 单纯 的 数字 ， 也 可 以 是 布尔 变量 或 者 一 个 特定 的 表示 。 表 3-2 中 的 标签 
是 房屋 的 ID， 是 一 个 数字 标签 。 第 2、3、4 列 是 属性 值 ， 也 是 标签 所 对 应 的 特征 值 ， 根 据 此 
特征 值 的 不 同 ， 每 行 所 对 应 的 目标 也 有 所 不 同 。 

不 同 的 ID 用 于 表示 不 同 的 目标 。 一 般 来 说 ， 数 据 处 理 的 最 终 目 的 就 是 使 用 不 同 的 特征 
属性 对 目标 进行 区 分 和 计算 。 已 有 的 目标 是 观察 和 记录 的 结果 ， 而 数据 处 理 的 过 程 就 是 创建 
一 个 可 进行 目标 识别 的 模型 的 过 程 。 

建立 模型 的 过 程 称 为 数据 处 理 的 训练 过 程 ， 其 速度 和 正确 率 主要 取决 于 算法 的 选择 ， 而 
算法 是 目标 和 属性 之 间 建 立 某 种 一 一 对 应 关系 的 过 程 。 这 点 在 前 面 介绍 数据 处 理 过 程 的 时 候 
已 经 有 所 介绍 。 

继续 回 到 表 3-2 的 征 阵 中 。 通 过 观察 可 知 ， 甜 阵 中 所 包含 的 属性 有 两 种 ， 分 别 是 数值 型 
变量 和 布尔 型 变量 。 其 中 第 2、3、4 列 是 数值 变量 ， 这 也 是 数据 处 理 中 最 常 使 用 和 辨识 的 类 
型 。 而 第 5 列 是 布尔 型 变量 ， 用 以 标识 对 地 下 室 存在 的 判定 。 

这 样 做 的 好 处 在 于 ， 数 据 处 理 在 工作 时 是 根据 采用 的 算法 进行 建 模 的 ， 算 法 的 描述 只 能 
对 数值 型 变量 和 布尔 型 变量 进行 处 理 ， 而 对 于 其 他 类 型 变量 的 处 理 相对 较 少 。 即 使 后 文 有 针 
对 文字 进行 处 理 的 数据 处 理 模型 ， 其 本 质 也 是 将 文字 转化 成 矩阵 向 量 进行 处 理 。 
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当 数 据 处 理 建 模 的 最 终 目 标 是 求 得 一 个 具体 数值 时 ， 即 目标 是 一 个 数字 ， 那 么 数据 处 理 
建 模 的 过 程 基本 上 可 以 被 转化 为 回归 问题 ， 差 别 在 于 是 逻辑 回归 还 是 线性 回归 。 

对 于 目标 为 布尔 型 变量 时 ， 问 题 大 多 数 被 称 为 分 类 问题 ， 而 常用 的 建 模 方法 是 决策 树 方 
法 。 一 般 来 说 ， 当 分 类 的 目标 是 两 个 的 时 候 ， 问 题 被 转化 为 二 元 分 类 ; 而 分 类 的 结果 多 于 两 
个 的 时 候 ， 分 类 称 为 多 元 分 类 。 

许多 情况 下 ， 数 据 处 理 建 模 和 算法 的 设计 是 由 程序 设计 和 研究 人 员 所 选择 的 ， 而 具体 采 
用 何 种 算法 和 模型 也 没有 一 定 的 要 求 ， 回 归 问 题 可 以 被 转化 为 分 类 问题 ， 而 分 类 问题 往往 也 
可 以 由 建立 的 回归 模型 解决 。 这 点 没有 特定 的 要 求 。 


3.12 ”数据 分 析 
对 于 数据 来 说 ， 在 进行 数据 处 理 建 模 之 前 ， 需 要 对 数据 进行 基本 的 分 析 和 处 理 。 
从 图 3-1 可 以 看 到 ， 对 于 数据 集 来 说 ， 在 进行 数据 分 析 之 前 ， 需 要 知道 很 多 东西 。 首 先 
需要 知道 一 个 数据 集 数 据 的 多 少 和 每 个 数据 所 拥有 的 属性 个 数 ， 对 于 程序 设计 人 员 和 科研 人 
员 来 说 ， 这 些 都 是 简单 的 事 ， 但 是 对 于 数据 处 理 的 模型 来 说 ， 是 必 不 可 少 的 内 容 。 


图 3-1 数据 分 析 的 要 求 


除 此 之 外 ， 对 于 数据 集 来 说 ， 缺 失 值 的 处 理 也 是 一 个 非常 重要 的 过 程 。 最 简单 的 处 理 方 
法 是 对 有 缺失 值 的 数据 进行 整体 删除 。 但 是 问题 在 于 ， 数 据 处 理 的 数据 往往 来 自 于 现实 社 
会 ， 因 此 可 能 数据 集中 大 多 数 的 数据 都 会 有 某 些 特征 属性 缺失 ， 而 解决 的 办 法 往往 是 采用 均 
值 或 者 与 目标 数据 近似 的 数据 特征 属性 蔡 代 。 有 些 情况 替代 方法 可 取 ， 而 有 些 情 况 下 ， 蔡 代 
或 者 采用 均值 的 办 法 处 理 缺 失 值 是 不 可 取 的 ， 因 此 要 根据 具体 情况 具体 处 理 。 

首先 从 一 个 小 例子 开始 介绍 。 以 表 3-2 的 矩阵 为 例 ， 需 要 建立 一 个 包含 数据 集 的 数据 矩 
阵 ， 之 后 可 以 利用 不 同 的 方法 对 其 进行 处 理 。 代 码 如 【程序 3-1】 所 示 。 


【程序 3-1】 


import numpy as np 
data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 
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[3,184.5,120,2,False], [4,116,70.8,1,False], [5,270,150, 4, True] ]) 
row = 0 
for line in data: 
row += 1 
print( row ) 


print( data.size ) 

【程序 3-1】 第 一 行 引入 了 Anaconda A i — TSR EPL. EFT NumPy， 读 者 只 
需要 知道 ，NumPy 系统 是 Python 的 一 种 开源 的 数值 计算 扩展 。 这 种 工具 可 用 来 存储 和 处 理 
大 型 矩阵 ， 比 Python 自身 的 嵌 套 列表 (nested list structure) 结构 要 高 效 得 多 。 

第 一 行 代码 的 意思 是 引入 NumPy， 将 其 重 命名 为 np 使 用 ， 第 二 行使 用 NumPy 中 的 matO 
方法 建立 一 个 数据 矩阵 ，row 是 引入 的 计算 行 数 的 变量 ， 使 用 for 循环 将 data 数据 读 出 到 line 
中 ， 而 每 读 一 行 则 row 的 计数 加 一 。data.size 是 计算 数据 集中 全 部 数据 的 数据 量 ， 一 般 其 与 
行 数 相 除 ， 则 为 列 数 。 最 终 打 印 结果 请 读者 自行 测试 。 

需要 说 明 的 是 ，NumPy 将 数据 转化 成 一 个 矩阵 的 形式 进行 处 理 ， 其 中 具体 的 数据 可 以 通 
过 二 元 的 形式 读 出 ， 如 【程序 3-2】 所 示 。 


【程序 3-2】 


import numpy as np 

data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 
[3,184.5,120,2,False], [4,116,70.8, 1, False], [5,270,150, 4, True] ]) 

print( print( data[0,3]) 

print( print( data[0,4]) 


最 终 打印 结果 如 下 : 


细心 的 读者 可 能 已 经 注意 到 ， 下 标 为 [0.3] 的 数据 对 应 的 是 矩阵 中 第 1 行 第 4 列 数 据 ， 其 
数值 为 3， 而 打印 结果 为 3.0， 这 个 没什么 问题 。 而 对 于 下 标 为 [0.4] 的 数据 ， 在 矩阵 中 是 
False 的 布尔 类 型 ， 打 印 结果 是 0。 这 点 牵涉 Python 的 语言 定义 ， 其 布尔 值 都 可 以 近似 地 表示 
为 0 和 1。 读 者 需要 注意 : 


True = 1.0 
False = 0 


如 果 需 要 打印 全 部 的 数据 集 ， 即 调用 如 下 方法 : 
Print( data) 


将 全 部 的 数据 以 一 个 数据 的 形式 进行 打印 ， 请 读者 自行 测试 。 
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3.1.3 ”基于 统计 分 析 的 数据 处 理 

除了 最 基本 的 数据 记录 和 提取 外 ， 数 据 处 理 还 需要 知道 一 些 基 本 数据 的 统计 量 ， 例 如 每 
一 类 型 数据 的 均值 、 方 差 以 及 标准 差 等 。 当 然 在 本 书 中 ， 并 不 需要 手动 或 者 使 用 计算 器 计算 
以 上 数值 ，NumPy 提供 了 相关 方法 。 程 序 如 下 。 

【程序 3-3】 
import numpy as np 


data = np.mat([[1,200,105,3,False],[2,165,80,2,False], 
[3,184.5,120,2,False], [4,116,70.8,1,False], [5,270,150,4, True] ]) 


coll = [] 
for row in data: 


coll.append(row[0,1]) 


print( np.sum(coll)) 
print( np.mean(coll) ) 
print( np.std(coll)) 


print( np.var(coll)) 

首先 ，coll 生成 了 一 个 空 的 数据 集 ， 之 后 采用 for 循环 对 数据 集 进行 填充 。 在 【程序 3-31 
中 ， 第 一 列 数据 被 填 入 coll 数据 集中 ， 这 也 是 一 个 类 型 数据 的 集合 ， 之 后 依次 计算 数据 集 的 
和 、 均 值 、 标 准 差 以 及 方差 ， 这 些 对 于 数据 处 理 模 型 的 建立 有 一 定 的 帮助 。 


图 形 化 数据 处 理 一 一 Matplotlib 包 的 使 用 


对 于 单纯 的 数字 来 说 ， 光 从 读数 据 的 角度 并 不 能 直观 反映 数字 的 偏差 和 集中 程度 ， 因 此 
需要 采用 另 一 种 方法 更 好 地 分 析 数 据 。 对 于 数据 来 说 ， 没 有 什么 能 够 比 用 图 形 来 解释 更 为 形 
象 和 直观 了 。 


3.2.1 差异 的 可 视 化 

继续 回 到 表 3-2 的 数据 ， 第 二 列 是 各 个 房屋 的 价格 ， 其 价格 并 不 相同 ， 因 此 直观 地 查看 
价格 的 差异 和 偏 移 程 度 是 较为 困难 的 一 件 事 。 

研究 数值 差异 和 异常 的 方法 是 绘制 数据 的 分 布 程 度 ， 相 对 于 合适 的 直线 或 曲线 ， 其 差异 
程度 如 何 ， 以 便 帮 助 确定 数据 的 分 布 。 

【程序 3-4】 


import numpy as np 


import pylab 
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import scipy.stats as stats 


data = np.mat([[1,200,105,3,False], [2,165,80,2,False], 
[3,184.5,120,2,False],[4,116,70.8,1,False], [5,270,150,4,True]]) 


coll = [] 
for row in data: 


coll.append (row[0,1]) 


stats.probplot (coll,plot-pylab) 
pylab.show() 


结果 如 图 3-2 所 示 。 


Figure 1 


*oot+r cea 


图 3-2 房屋 价格 的 偏离 展示 


【程序 3-4】 展 示 了 一 个 对 价格 的 偏离 程度 的 代码 实现 例子 ，coll 集合 是 价格 的 合集 ， 
scipy 是 专门 进行 数据 处 理 的 数据 处 理 包 ，probplot 计算 了 coll 数据 集中 数据 在 正 态 分 布下 的 
偏离 程度 。 从 图 3-2 可 以 看 到 ， 价 格 围绕 一 条 直线 上 下 波动 ， 有 一 定 的 偏离 ， 但 是 偏离 情况 
不 太 明 显 。 

其 中 ，R 为 0.9579， 指 的 是 数据 拟 合 的 相关 性 ， 一 般 0.95 以 上 就 可 以 认为 数据 拟 合 程度 
比较 好 。 


3.2.2 ”坐标 图 的 展示 

通过 前 面 对 回归 的 可 视 化 处 理 可 以 看 到 ， 可 视 化 能 够 让 数据 更 加 直观 地 展现 出 来 。 同 
时 ， 可 以 对 数据 的 误差 表现 得 更 为 直观 。 

图 3-3 展示 了 一 个 横向 坐标 图 ， 用 以 展示 不 同类 别 所 占 的 比重 。 系 列 1. 2. 3 分 别 代 表 
不 同 的 属性 ， 而 类 别 1-6 可 以 看 作 是 6 个 不 同 的 特例 。 通 过 坐标 图 可 以 非常 直观 地 看 到 不 同 
的 类 别 中 不 同 的 属性 所 占 的 比重 。 
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RM, RH 1, RH 2, RH 3, RH 4， 类 别 5， 类 别 6 
系列 1, 100, B5, 66, 88, 58, 79 


系列 2, 62, 55, 35, 59, 12, 89 
系列 3, 78, 45, 25, 35, 65, 54 BH: 


RM 6 


类 别 5 


RY 4 


RH 3 


类 别 2 


类 别 1 


52.8 105.6 158.4 211.2 264 单位 


图 3-3 横向 坐标 图 


可 以 看 到 ， 一 个 坐标 图 能 够 对 数据 进行 展示 ， 其 最 基本 的 要 求 是 可 以 通过 不 同 的 行 或 者 
列表 现 出 数据 的 某 些 具 体 值 ， 不 同 的 标签 使 用 不 同 的 颜色 和 样式 用 以 展示 不 同 的 系统 关系 。 
【程序 3-5】 展 示 了 对 于 不 同 目标 的 数据 提取 不 同 的 行进 行 显示 的 代码 。 


【程序 3-5】 


import pandas as pd 

import matplotlib.pyplot as plot 

rocksVMines = pd.DataFrame([[1,200,105,3,False], [2,165,80,2,False], 
[3,184.5,120,2,False], [4,116,70.8,1,False], [5,270,150,4,True]]) 


dataRowl = rocksVMines.iloc[1,0:3] 
dataRow2 rocksVMines.iloc[2,0:3] 
plot.scatter(dataRowl, dataRow2) 
plot.xlabel("Attributel") 
plot.ylabel(("Attribute2")) 
plot.show() 


dataRow3 = rocksVMines.iloc[3,0:3] 
plot.scatter(dataRow2, dataRow3) 
plot.xlabel("Attribute2") 
plot.ylabel("Attribute3") 
plot.show() 
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从 图 34 可 以 看 到 ， 通 过 选 定 不 同 目标 行 中 不 同 的 属性 ， 可 以 对 其 进行 较 好 的 衡量 ， 比 较 两 
个 行 之 间 的 属性 关系 以 及 属性 之 间 的 相关 性 。 不 同 的 目标 ， 即 使 属性 千差万别 ， 也 可 以 构建 相互 
关系 图 。 


Wi Faure 1 - H X 


too +z Gav 


图 3-4 不 同 目标 属性 之 间 的 关系 


顺带 说 一 句 ， 本 例 中 采用 的 数据 较 少 ， 随 着 数据 增加 ， 属 性 之 间 一 般 呈 现 一 种 正 态 分 
布 ， 这 点 请 读者 自行 验证 。 


@:- 


3.2.3 ”大 规模 数据 的 可 视 化 


对 于 大 规模 数据 来 说 ， 由 于 涉及 的 目标 比较 多 ， 属 性 特征 值 也 比较 多 ， 对 其 查看 更 是 一 
项 非常 复杂 的 工作 ， 因 此 ， 为 了 更 好 地 理解 和 掌握 大 数据 的 处 理 ， 将 其 转化 成 可 视 性 较 强 的 
图 形 是 更 好 的 做 法 。 

前 面 对 小 数据 集 进 行 了 图 形 化 查阅 ， 现 在 对 现实 中 的 大 规模 数据 进行 处 理 。 

数据 来 源 于 真实 的 信用 贷款 数据 ， 从 50 000 个 数据 记录 中 随机 选取 200 个 数据 进行 计算 ， 每 
个 数据 又 有 较 多 的 属性 值 。 大 多 数 情况 下 ， 数 据 是 以 CSV 格式 进行 存储 的 ，pandas 包 同 样 提 
供 了 相关 读 取 程序 。 具 体 代 码 见 【程序 3-6】。 


【程序 3-6】 


import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read_csv(filePath,header=None, prefix="V") 
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dataRowl = dataFile.iloc[100,1:300] 
dataRow2 = dataFile-iloc[101,1:300] 
plot.scatter(dataRowl, dataRow2) 
plot.xlabel ("Attributel") 
plot.ylabel ("Attribute2") 
plot.show() 


从 【程序 3-6】 可 以 看 到 ， 首 先 使 用 filePath 创建 了 一 个 文件 路 径 ， 用 以 建立 数据 地 址 。 
之 后 使 用 pandas 自 带 的 read. csv 读 取 CSV 格式 的 文件 。dataFile 是 读 取 的 数据 集 ， 之 后 使 用 
ioc 方法 获取 其 中 行 的 属性 数据 ，scatter 是 做 出 分 散 图 的 方法 ， 对 属性 进行 画图 。 最 终结 果 
如 图 3-5 所 示 。 


*oot-t-omHc 


3-5 ”大 数据 集中 不 同 目标 属性 之 间 的 关系 


可 以 看 到 ， 数 据 在 (0,0) 的 位 置 有 较 大 的 集合 ， 表 明 属 性 在 此 的 偏离 程度 较 小 ， 而 几 个 
特定 点 是 偏离 程度 较 大 的 点 。 这 可 以 帮助 读者 对 高 群 值 进行 分 析 。 


B 


下 面 继续 对 数据 集 进 行 分 析 。【 程 序 3-5】 和 【程序 3-6】 让 读者 看 到 了 对 数据 的 同一 行 
中 不 同 的 属性 进行 处 理 的 方法 ， 如 果 要 对 不 同 目标 行 的 同一 种 属性 进行 分 析 ， 那 么 如 何 做 
We? 请 读者 参阅 【程序 3-7】。 


【程序 3-7】 


import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read csv(filePath,header-None, prefix-"V") 
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target = [] 
for i in range(200): 
if dataFile.iat[i,10] >= 7: 
target.append (1.0) 
else: 
target.append (0.0) 


dataRow = dataFile.iloc[0:200,10] 
plot.scatter(dataRow, target) 
plot.xlabel("Attribute") 
plot.ylabel ("Target") 

plot.show() 


【程序 3-7】 中 对 数据 进行 处 理 ， 提 取 了 200 行 数 据 中 的 第 10 个 属性 ， 并 对 其 进行 判 
定 ， 单 纯 的 判定 规则 是 根据 均值 对 其 区 分 ， 之 后 计算 判定 结果 ， 如 图 3-6 所 示 。 


el 
图 3-6 大 数据 集中 不 同行 相同 属性 之 间 的 关系 
通过 图 3-6 可 以 看 到 ， 属 性 被 人 为 地 分 成 两 部 分 ， 数 据 集合 的 程度 也 显示 了 偏离 程度 。 
如 果 下 一 步 需要 对 属性 的 离散 情况 进行 反映 ， 那 么 应 该 使 用 【程序 3-8】。 
【程序 3-8】 


import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read_csv(filePath,header=None, prefix="V") 


target = [] 
for i in range(200): 
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if dataFile.iat[i,10] >= 7: 
target.append(1.0 + uniform(-0.3, 0.3)) 


else: 


target.append(0.0 + uniform(-0.3, 0.3)) 
dataRow = dataFile.iloc[0:200,10] 
plot.scatter(dataRow, target, alpha-0.5, s=100) 
plot.xlabel ("Attribute") 
plot.ylabel ("Target") 
plot.show() 


此 段 程序 中 ， 离 散 的 数据 被 人 为 地 加 入 了 离散 变量 ， 具 体 显 示 结 果 请 读者 自行 完成 。 


林 。 坷 常用 的 统计 分 析 方法 “相似 度 计 算 


我 们 从 3.2 节 的 内 容 中 可 以 看 到 ， 由 于 不 同 目标 行 之 间 的 属性 不 同 ， 画 出 的 散 点 图 也 是 
千差万别 的 ， 而 不 同 的 属性 对 于 数据 处 理 来 说 ， 需 要 一 个 统一 的 度量 进行 计算 ， 即 需要 对 其 
相似 度 进 行 计算 。 

相似 度 的 计算 方法 很 多 ， 这 里 选用 最 常用 的 两 种 ， 即 欧 几 里 得 相似 度 计算 和 余弦 相似 度 
计算 。 如 果 读 者 对 此 不 感 兴趣 ， 可 以 跳 过 本 节 内 容 继续 学 习 。 


3.3.1 基于 欧 几 里 得 距离 的 相似 度 计算 

欧 几 里 得 距离 Euclidean Distance) 是 最 常用 的 计算 距离 的 公式 ， 它 用 来 表示 三 维 空间 
中 两 个 点 的 真实 距离 。 

欧 几 里 得 相似 度 计 算是 一 种 基于 用 户 之 间 直 线 距离 的 计算 方式 。 在 相似 度 计算 中 ， 不 同 
的 物品 或 者 用 户 可 以 将 其 定义 为 不 同 的 坐标 点 ， 而 将 特定 目标 定位 为 坐标 原点 。 使 用 欧 几 里 
得 距离 计算 两 个 点 之 间 的 绝对 距离 。 欧 几 里 得 相似 度 的 计算 如 【公式 3-1】 所 示 。 


【公式 3-1】 


d-(s x) *0i-» 
从 【公式 3-1】 可 以 看 到 ， 作 为 计算 结果 的 欧式 值 显 示 的 是 两 点 之 间 的 直线 距离 ， 该 值 
的 大 小 表示 两 个 物品 或 者 用 户 差异 性 的 大 小 ， 即 用 户 的 相似 性 。 两 个 物品 或 者 用 户 距离 越 
大 ， 可 以 看 到 其 相似 度 越 小 ; 距离 越 小 则 相似 度 越 大 。 


D DX 
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相似 度 就 越 大 ， 欧 氏 距离 越 大 ， 两 组 数据 相似 度 就 越 小 。 因 此 ， 在 实际 中 往往 使 用 欧 几 : 
里 得 距离 的 倒数 作为 相似 度 计算 的 近似 值 ， 即 使 用 1(d+1) 作 为 近似 值 。 i 


下 面 来 看 一 个 常用 的 用 户 -物品 推荐 评分 表 的 例子 ， 如 表 3-3 所 示 。 
#33 用 户 与 物品 评分 对 应 表 


物品 1 物品 2 物品 3 物品 4 
用 户 1 1 1 3 1 
用 户 2 1 2 3 2 
用 户 3 2 2 1 1 


R 3-3 是 3 个 用 户 对 物品 的 打分 表 ， 如 果 需 要 计算 用 户 1 和 其 他 用 户 之 间 的 相似 度 ， 通 
过 欧 几 里 得 距离 公式 可 以 得 出 : 


d, = +0-2) «G-3) «0-2y «1414 


可 以 看 到 ， 用 户 1 和 用 户 2 的 相似 度 为 1.414， 而 用 户 1 和 用 户 3 的 相似 度 是 : 


d, - 40-2) 0-2) « G-1y «0-1 ~2.449 


从 得 到 的 计算 值 可 以 看 出 ，d 的 分 值 小 于 dis 的 分 值 ， 根 据 欧 氏 距 离 与 相似 度 成 反比 的 法 
则 ， 可 以 认为 用 户 2 相对 于 用 户 3 更 加 近似 于 用 户 1。 


3.3.2 ”基于 余弦 角度 的 相似 度 计算 
与 欧 几 里 得 距离 相 类 似 ， 余 弦 相 似 度 也 将 特定 目标 物品 或 者 用 户 作 为 坐标 上 的 点 ， 
但 不 是 坐标 原点 ， 与 特定 的 计算 目标 进行 夹 角 计算 ， 具 体 如 图 3-7 所 示 。 


图 3-7 余弦 相似 度 示 例 


从 图 3-7 可 以 很 明显 地 看 出 ， 两 条 直线 分 别 从 坐标 原点 触发 ， 引 出 一 定 的 角度 。 如 果 两 
个 目标 较为 相似 ， 那 么 其 线段 形成 的 夹 角 较 小 。 如 果 两 个 用 户 不 相近 ， 那 么 两 条 射线 形成 的 
夹 角 较 大 。 因 此 ， 在 使 用 余弦 度量 的 相似 度 计 算 中 ， 可 以 用 夹 角 的 大 小 来 反映 目标 之 间 的 相 
似 性 。 余 弦 相 似 度 的 计算 如 【公式 3-2】 所 示 。 


【公式 3-2】 


wa- DG x») 
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从 【公式 3-2】 可 以 看 到 ， 余 弦 值 一 般 在 [-1.1] 之 间 ， 而 这 个 值 的 大 小 同时 与 余弦 夹 角 的 
大 小 成 正比 。 如 果 用 余弦 相似 度 计算 表 3-3 中 用 户 1 和 用 户 2 之 间 的 相似 性 ， 结 果 如 下 : 


1xl+1x2+3x3+1x2 apes 
2 | CCE ON |e rez “Tit f 
而 用 户 1 和 用 户 3 的 相似 性 如 下 


wes 1x241x243x141x1l 7 8 
OVP 4243242 x2? 4+274P4P V2x/0 


从 计算 结果 可 得 ， 用 户 2 相对 于 用 户 3， 与 用 户 1 更 为 相似 。 


0:73) 


3.3.3 欧 几 里 得 相似 度 与 余弦 相似 度 的 比较 


欧 几 里 得 相似 度 以 目标 绝对 距离 作为 衡量 的 标准 ， 而 余弦 相似 度 以 目标 差异 的 大 小 作为 
衡量 标准 ， 其 表述 如 图 3-8 所 示 。 


FA 3-8 欧 几 里 得 相似 度 与 余弦 相似 度 


可 以 看 到 ， 欧 几 里 得 相似 度 注 重 目标 之 间 的 差异 ， 与 目标 在 空间 中 的 位 置 直接 相关 。 而 
余弦 相似 度 是 不 同 目标 在 空间 中 的 夹 角 ， 更 加 表现 在 前 进 趋势 上 的 差异 。 

欧 几 里 得 相似 度 和 余弦 相似 度 具 有 不 同 的 计算 方法 和 描述 特征 。 一 般 来 说 ， 欧 几 里 得 相 
似 度 用 以 表现 不 同 目标 的 绝对 差异 性 ， 从 而 分 析 目 标 之 间 的 相似 度 与 差异 情况 。 而 余弦 相似 
度 更 多 的 是 对 目标 从 方向 趋势 上 区 分 ， 对 特定 坐标 数字 不 敏感 。 
举例 来 说 ， 两 个 目标 在 不 同 的 两 个 用 户 之 间 的 评分 分 别 是 1,1) 和 (5,5) ， 这 两 个 评分 
在 表述 上 是 一 样 的 。 但 是 在 分 析 用 户 相似 度 时 ， 更 多 的 是 使 用 欧 几 里 得 相似 度 而 不 是 余 ; 
弦 相 似 度 对 其 进行 计算 。 余 弦 相 似 度 更 好 地 区 分 了 用 户 的 分 离 状 态 。 i 
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2.4. 数据 的 统计 学 可 视 化 展示 


在 3.3 节 中 ， 读 者 对 数据 ， 特 别 是 大 数据 的 处 理 有 了 基本 的 认识 ， 通 过 数据 的 可 视 化 处 
理 ， 对 数据 的 基本 属性 和 分 布 都 有 了 较为 直观 的 理解 。 本 节 将 对 数据 进行 更 多 的 分 析 处 理 ， 
需要 用 到 更 为 精准 和 科学 的 统计 学 分 析 方 面 的 知识 。 


3.4.1 数据 的 四 分 位 
四 分 位 数 〈Quartile) 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数据 由 小 到 大 排列 并 分 成 四 等 
份 ， 处 于 三 个 分 割 点 位 置 的 数据 就 是 四 分 位 数 。 


© 第 一 四 分 位 数 (Q1) 又 称 “ 下 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 


第 25% 的 数据 。 

© 第 二 四 分 位 数 (Q2) 又 称 “ 中 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 第 
50% 数 据 。 

© 第 三 四 分 位 数 (Q3) 又 称 “ 上 四 分 位 数 ”， 等 于 该 样本 中 所 有 数据 由 小 到 大 排列 后 
第 75% 的 数据 。 


e 第 三 四 分 位 数 与 第 一 四 分 位 数 的 差距 又 称 四 分 位 距 ( Inter Quartile Range, IQR) . 
首先 确定 四 分 位 数 的 位 置 ，n 表示 项 数 的 话 ， 四 分 位 数 的 位 置 分 别 为 : 

€ Ql 的 位 置 = (ntl) x 0.25 

e Q2 的 位 置 =(n+1)x0.5 

€ § Q3 的 位 置 =(n+1) x 0.75 

通过 图 形 表示 如 图 3-9 所 示 。 


^ 


< 一 下 边缘 


图 3-9 四 分 位 的 计算 
从 图 3-9 可 以 看 到 ， 四 分 位 在 图 形 中 根据 Q1 和 Q3 的 位 置 绘制 了 一 个 箱 体 结构 ， 即 根据 
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一 组 数据 的 5 个 特征 绘制 的 一 个 箱子 和 两 条 线段 的 图 形 。 这 种 直观 的 箱 线 图 反映 出 一 组 数据 
的 特征 分 布 ， 还 显示 了 数据 的 最 小 值 、 中 位 数 和 最 大 值 。 


3.4.2 ”数据 的 四 分 位 示例 

首先 介绍 本 例 中 的 数据 集 。 本 数据 集 来 源 于 真实 世界 中 某 借贷 机 构 对 申请 贷款 人 的 背 
景 调查 ， 目 的 是 根据 不 同 借款 人 的 条 件 分 析 判 断 借款 人 能 否 按时 归还 货款。 一 般 来 说 ， 借 
款 人 能 和 否 按时 归还 贷款 是 所 有 借贷 最 为 头疼 的 问题 ， 其 中 的 影响 因素 很 多 ， 判 别 相对 麻 
烦 ， 判 断 错误 后 果 也 较为 严重 。 而 通过 数据 处 理 可 以 较为 轻松 地 将 其 转化 成 一 个 回归 分 类 
问题 进行 解决 。 

数据 集中 的 数据 如 图 3-10 所 示 。 


PIDE C 116. 58031, 0, 13, 0, 1 
74, 11742. EN E 


1,-1,-1, " 

0, 0, 1, 7, 0, 3, 0, 0. , 0, 0, 0, 0, 97, 88, 

0,0, 0, 0, 0, 0, 0, 0, 5, 0, 0, 6, 1, 1318, 0, 0, 0, 0, 0, 
, 0, 49, -1, 19, 159, 157, 3, 16, — 
32, 0409.0, 050, 0,0, 0, 0, 0, 0.0, 0 
b, 0,0, 19, 0, 0,0, 0, 51, , 0,0,0, 


图 3-10 “小 贷 数 据 集 
这 个 数据 集 的 形式 是 每 一 行为 一 个 单独 的 目标 行 ， 使 用 逗号 分 割 不 同 的 属性 ; 每 一 列 是 
不 同 的 属性 特征 ， 不 同 列 的 含义 在 现实 中 至 关 重 要 ， 这 里 不 做 解释 。 有 具体 代码 如 【程序 3-9】 
所 示 。 


【程序 3-9】 


from pylab import * 
import pandas as pd 
import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 
dataFile = pd.read csv(filePath,header-None, prefix-"V") 


print (dataFile.head()) 
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print ((dataFile.tail()) 


summary = dataFile.describe() 


print (summary) 


array = dataFile.iloc[:,10:16].values 
boxplot (array) 

plot.xlabel ("Attribute") 

plot.ylabel ( ("Score") ) 


show () 
下 面 来 看 数据 的 结果 : 
vo vil v2 v3 v4 v5 v6 v7 v8 Vel mudo 11290 
0 20001 6:15 7:06 5:24 2:61 0200) 4-36 0.00 5:76 3-83 el 7 
T. 20002 6:53 6:15 9.85 4:03 0-10 T-32 02691 6:24 7-06 6 
2 200037 8.22 3.23 1.69 0:41 0202 2289 0.13 10705118276 1 
3 20003 6.79 4:99 1.50 2:285 5:53 1:89 5.41 6:79 6-1 3 
4 20005 =1.00 =1:00 -1.00 -1.00:=-1-00 =1:00 -1-00 -1.00 -1:00 ==; T 


V1130 V1131 V1132 V1133 V1134 V1135 V1136 V1137 V1138 


0 6 1 2 5 a 3 6 8 12 
D T 15 2 6 7 ib 8 T 24 
2 8 3 1 1 8 8 1 D 6 
al 6 20 i 6 8 b 6 5 12 
4 8 1 i 8 8 al 8 8 n 


[5 rows x 1139 columns] 

vo Vi v2 V3 v4 v5 v6 v7 v8 VEL es N 
296 20197 3459 5.63 6:21 5:24 Ye dd 1:65. ArT 03 ]3 ToTOT 9 
197 20198: 7-27 “Geek 9.35 2:71 0:00. 1.37. 0:74 5-77 A-6 J> 
296: 20199 6:16- 5.05 6.43 6.05. 1-93 2:56 3.15 7.32 Ud 19 vs 
199 20200 6.12 7-45 1.05 1.03 0-16 1.44 0.32% 6.49 10.79 <- 
200) 20201 5.50. 6:29 6.11 2.64 0:11 4:08 2.44 T304 5.60 vs 


W1129 WIL3I0. Vv1131 V1132 VLL33 v1134 yv1135 V1136 V1137 Vv1138 


196 6 6 1 al 6 8 9 8 4 28 
197 7 1 "m i 1 8 24 1 8 14 
198 B 7 al 2 7i itj 3 3 7 4 
199 7 8 ri 2 4 YÀ 6 8 7 12 
200 T: jf 3 1 J 8 al 2 7 23 
[5 rows x 1139 columns] 

vo vi v2 v3 WEN 
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count 201.000000 201.000000 201.000000 201.000000 201.000000 
mean  20101.000000 5.266219 6.447015 6.156020 3.319303 
std 58.167861 2-213933 2.443789 2.967566 3.134570 
min 20001.000000 -1.000000 -1.000000 -1.000000 -1.000000 
25% 20051.000000 4.130000 5.190000 4.660000 1.200000 
50% 20101.000000 5.240000 6.410000 6.000000 2.830000 
75% 20151.000000 6.590000 7.790000 7.640000 4.570000 
max 20201.000000 13.150000 13.960000 16.620000 28.440000 


v5 v6 v7 v8 v9 ERE \ 
count 201.000000 201.000000 201.000000 201.000000 201.000000 555 
mean 0.907662 2.680149 2.649254 5.149055 5.532736 sea 


std 1.360489 2.292231 2.912611 2.965096 2.763270 e. 

min -1.000000 -1.000000  Á-1.000000  Á-1.000000 -1.000000 oe. 

25% 0.020000 1.270000 0.320000 3.260000 3.720000 

50% 0.300000 2.030000 1.870000 4.870000 5.540000 

758 1.390000 3.710000 4.140000 6.760000 7.400000 e. 

max 8.480000 12.970000  Á 18.850000 15.520000 13.490000 e. 
V1129 V1130 V1131 V1132 V1133 V1134 \ 

count 201.000000 201.000000 201.000000 201.000000 201.000000 201.000000 

mean 6.054726 6.039801 7.756219 1.353234 4.830846 7.731343 

std 1.934422 2.314824 9.145232 0.836422 2.161306 0.444368 

min 1.000000 1.000000 1.000000 1.000000 1.000000 7.000000 

25% 6.000000 5.000000 1.000000 1.000000 3.000000 7.000000 

50% 7.000000 7.000000 1.000000 1.000000 6.000000 8.000000 

758 7.000000 8.000000 15.000000 2.000000 7.000000 8.000000 

max 8.000000 8.000000 35.000000 7.000000 8.000000 8.000000 
V1135 V1136 V1137 V1138 


count 201.000000 201.000000 201.000000 201.000000 
mean 10.960199 5.631841 5.572139 16.776119 


std 9.851315 2.510733 2.517145 8.507916 
min 1.000000 1.000000 1.000000 1.000000 
25% 3.000000 3.000000 4.000000 11.000000 
50% 8.000000 7.000000 7.000000 17.000000 
758 18.000000 8.000000 7.000000 23.000000 


max 36.000000 8.000000 8.000000 33.000000 

这 一 部 分 是 打印 出 的 计算 后 的 数据 头 和 尾部 ， 为 了 节省 空间 ， 只 选择 了 前 6 个 和 最 后 尾 
部 的 6 个 数据 。 第 一 列 是 数据 的 编号 ， 对 数据 目标 行进 行 区 分 ， 其 后 是 每 个 不 同 的 目标 行 的 
属性 。 

dataFile.describe() 方 法 是 对 数据 进行 统计 学 估计 ，count、mean、std、min 分 别 求 得 每 列 
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第 3 章 Python 类 库 的 使 用 一 一 数据 处 理 及 可 视 化 展示 


数据 的 计数 、 均 值 、 方 差 以 及 最 小 值 。 最 后 的 几 个 百分比 是 求 得 四 分 位 的 数据 ， 具 体 图 形 如 
3-11 所 示 。 


图 3-11 小 贷 数据 集 的 四 分 位 显示 
代码 中 选择 了 第 11~16 列 的 数据 作为 分 析 数 据 集 ， 可 以 看 到 ， 不 同 的 数据 列 做 出 的 箱 体 


四 分 位 图 也 是 不 同 的 ， 而 部 分 明显 超越 四 分 位 位 置 的 数据 被 称 为 离 群 值 ， 一 般 被 视 作 特 异 点 
加 以 处 理 。 


从 图 3-11 可 以 看 到 ， 四 分 位 图 是 一 个 以 更 好 、 更 直观 的 方式 来 识别 数据 中 异常 值 的 方 
法 ， 比 起 数据 处 理 的 其 他 方式 ， 它 能 够 更 有 效 地 让 分 析 人 员 判 断 离 群 值 。 


3.4.9 数据 的 标准 化 

继续 对 数据 进行 分 析 ， 相 信 读 者 在 进行 数据 选择 的 时 候 ， 可 能 会 遇 到 某 一 列 的 数值 过 大 
或 者 过 小 的 问题 ， 即 数据 的 显示 超出 其 他 数据 部 分 较 大 时 ， 就 会 产生 数据 图 形 失 真 的 问题 ， 
如 图 3-12 所 示 。 
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um 


图 3-12 ”数据 超 预期 的 四 分 位 图 


因此 ， 需 要 一 个 能 够 对 数据 进行 处 理 ， 使 其 具有 共同 计算 均值 的 方法 ， 这 样 的 方法 称 为 
数据 的 标准 化 处 理 。 

顾名思义 ， 数 据 的 标准 化 是 将 数据 根据 自身 一 定 比例 进行 处 理 ， 使 之 落 入 一 个 小 的 特定 
区 间 ， 一 般 为 C1.1) 之 间 。 这 样 做 的 目的 是 去 除数 据 的 单位 限制 ， 将 其 转化 为 无 量 纲 的 纯 数 
值 ， 使 得 不 同 单位 或 量 级 的 指标 能 够 进行 比较 和 加 权 ， 其 中 最 常用 的 就 是 0-1 标准 化 (0-1 


normalization) 和 Z-score 标准 化 (zero-mean normalization) 。 


1. 0-1 标准 化 
0-1 标准 化 也 叫 离 差 标准 化 ， 是 对 原始 数据 的 线性 变换 ， 使 结果 落 到 [0.1] 区 间 ， 转 换 函 数 
如 下 : 
x= x-min 
max-min 


其 中 ，max 为 样本 数据 的 最 大 值 ，min 为 样本 数据 的 最 小 值 。 这 种 方法 有 一 个 缺陷 ， 就 
是 当 有 新 数据 加 入 时 ， 可 能 导致 max 和 min 的 变化 ， 需 要 重新 定义 。 


2. Z-score 标准 化 


Z-score 标准 化 也 叫 标准 差 标准 化 ， 经 过 处 理 的 数据 符合 标准 正 态 分 布 ， 即 均值 为 0， 标 
准 差 为 1， 其 转化 函数 为 : 
x = zt 
o 
其 中 , 上 为 所 有 样本 数据 的 均值 ，s 为 所 有 样本 数据 的 标准 差 。 
一 般 情 况 下 ， 通 过 数据 的 标准 化 处 理 后 ， 数 据 最 终 落 在 (-1,1) 之 间 的 概率 为 99.7%， 而 在 
(-1, 了 1) 之 外 的 数据 被 设置 成 -1 和 1， 以 便 处 理 。 
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【程序 3-10】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 


dataFile = pd.read csv(filePath,header-None, prefix-"V") 


summary = dataFile.describe() 
dataFileNormalized = dataFile.iloc[:,1:6] 
for i in range(5): 

mean = summary.iloc[1, i] 


sd = summary.iloc[2, i] 


dataFileNormalized.iloc[:,i:(i + 1)] = (dataFileNormalized.iloc[:,i:(i + 1)] - 
mean) / sd 

array = dataFileNormalized.values 

boxplot (array) 

plot.xlabel("Attribute") 

plot.ylabel(("Score")) 


show() 


从 代码 中 可 以 看 到 ， 数 据 被 处 理 为 标准 差 标准 化 的 方法 ，dataFileNormalized 被 重新 计算 
并 定义 ， 大 数值 被 人 为 限定 在 (-1,1) 之 间 ， 请 读者 自行 运行 验证 。 


【程序 3-10】 中 所 使 用 的 数据 被 人 为 修改 ， 请 读者 自行 修改 验证 ， 这 里 不 再 进行 演示 。 | 
此 外 ， 读 者 可 以 对 数据 进行 处 理 ， 验 证 更 多 的 标准 化 方法 。 : 


3.4.4 数据 的 平行 化 处 理 

从 3.4.2 小 节 可 以 看 到 ， 对 于 每 种 单独 的 数据 属性 来 说 ， 可 以 通过 数据 的 四 分 位 法 进行 处 
理 、 查 找 和 寻找 离 群 值 ， 从 而 对 其 进行 分 析 处 理 。 

但 是 对 于 属性 之 间 的 横向 比较 ， 每 个 目标 行 属性 之 间 的 比较 ， 使 用 四 分 位 法 则 较 难 判 
断 ， 因 此 为 了 描述 和 表现 每 一 个 不 同 目标 行 之 间 数 据 的 差异 和 不 同 ， 需 要 另 一 种 处 理 和 展示 
方法 。 

平行 坐标 (Parallel Coordinates) 是 一 种 常用 的 可 视 化 方法 ， 用 于 对 高 维 几 何 和 多 元 数据 
进行 可 视 化 。 

平行 坐标 为 了 表示 在 高 维 空间 的 一 个 点 集 ， 在 N 条 平行 的 线 的 背景 下 一 般 这 N 条 线 都 
竖 直 且 等 距 ) ， 一 个 在 高 维 空间 的 点 被 表示 为 一 条 拐点 在 N 条 平行 坐标 轴 的 折线 ， 在 第 KK 个 
坐标 轴 上 的 位 置 就 表示 这 个 点 在 第 维 的 值 。 

平行 坐标 是 信息 可 视 化 的 一 种 重要 技术 。 为 了 克服 传统 的 笛 卡 尔 直 角 坐 标 系 容易 耗 尽 空 
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间 、 难 以 表达 三 维 以 上 数据 的 问题 ， 平 行 坐标 将 高 维 数据 的 各 个 变量 用 一 系列 相互 平行 的 坐 
标 轴 表示 ， 变 量 值 对 应 轴 上 的 位 置 。 为 了 反映 变化 趋势 和 各 个 变量 间 的 相互 关系 ， 往 往 将 描 
述 不 同 变 量 的 各 个 点 连接 成 折线 。 所 以 平行 坐标 图 的 实质 是 将 欧式 空间 的 一 个 点 
Xi(xi1,Xi2,…,Xim) 映射 到 二 维 平面 上 的 一 条 曲线 。 

平行 坐标 图 可 以 表示 超 高 维 数据 。 平 行 坐标 的 一 个 显著 优点 是 具有 良好 的 数学 基础 ， 其 
射影 几何 解释 和 对 偶 特性 使 它 很 适合 用 于 可 视 化 数据 分 析 。 


【程序 3-11】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 

filePath = ("c://dataTest.csv") 

dataFile = pd.read_csv(filePath,header=None, prefix="V") 


summary = dataFile.describe() 
minRings = -1 
maxRings = 99 
nrows = 10 
for i in range (nrows) : 
dataRow = dataFile.iloc[i,1:10] 
labelColor = (dataFile.iloc[i,10] - minRings) / (maxRings - minRings) 
dataRow.plot (color=plot.cm.RdY1Bu(labelColor), alpha=0.5) 
plot.xlabel ("Attribute") 
plot.ylabel ("Score") 
show () 


从 代码 中 可 以 看 到 ， 首 先 计算 总 体 的 统计 量 ， 之 后 设置 计算 的 最 大 值 和 最 小 值 。 本 例 中 
人 为 设置 -1 为 最 小 值 ，99 为 最 大 值 。 为 了 计算 简便 ， 选 择 了 前 10 行 作为 目标 行 数 进行 计 
算 。 使 用 for 循环 对 数据 进行 训练 。 

最 终 图 形 结果 如 图 3-13 所 示 。 


t00 +r OMe i | 


3-13 ”属性 的 图 形 化 展示 
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从 图 3-13 中 可 以 看 到 ， 不 同 的 属性 画 出 了 10 条 不 同 的 曲线 ， 这 些 曲线 根据 不 同 的 属性 
从 而 画 出 不 同 的 运行 轨迹 。 


可 以 选择 不 同 的 目标 行 和 不 同 的 属性 进行 验证 ， 可 以 观察 更 多 的 数据 中 所 展示 的 结果 有 ; 


345 ”热点 图 -属性 相关 性 检测 

前 面 对 数据 集中 数据 的 属性 分 别 进行 了 横向 和 纵向 的 比较 ， 现 在 换 一 种 思路 ， 如 果 对 数 
据 属性 之 间 的 相关 性 进行 检测 的 话 ， 该 怎么 办 呢 ? 

热点 图 是 一 种 判断 属性 相关 性 的 常用 方法 ， 根 据 不 同 目标 行 数据 对 应 的 数据 相关 性 进行 
检测 。【 程 序 3-12】 展 示 了 对 数据 相关 性 进行 检测 的 方法 ， 根 据 不 同 数据 之 间 的 相关 性 ， 做 
出 图 形 。 


【程序 3-12】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 
filePath = ("c://dataTest.csv") 


dataFile = pd.read_csv(filePath,header=None, prefix="V") 


summary = dataFile.describe() 
corMat = DataFrame (dataFile.iloc[1:20,1:20].corr()) 


plot.pcolor(corMat) 
plot.show() 


最 终结 果 如 图 3-14 所 示 。 


[Missi — hk eb) 
200 +7 CBs 


[=asoao6  y-158962 


图 3-14 属性 之 间 的 相关 性 
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不 同 颜色 之 间 显 示 了 不 同 的 相关 性 ， 彩 色 的 深浅 显示 了 相关 性 的 强 弱 程度 。 对 此 读者 可 
以 通过 打印 相关 系数 来 直观 地 显示 数据 ， 相 关系 数 打印 方法 如 下 : 


print (corMat) 


Python 实战 : 某 地 降雨 的 关系 处 理 


前 面 对 数 据 属 性 间 的 处 理 做 了 大 致 的 介绍 ， 本 节 将 使 用 这 个 方法 解决 一 个 实际 问题 。 

农业 灌溉 用 水 主要 来 自 于 天 然 降 水 和 地 下 水 。 随 着 中 原 经 济 区 的 发 展 和 城镇 化 水 平 的 提 
高 ， 城 市 用 水 日 趋 紧 张 。 下 面 以 河南 省 降水 量 的 变化 及 分 布 规律 为 例 进行 介绍 ， 为 合理 调度 
和 利用 水 资源 提供 决策 。 

数据 集 名 为 rain.csv， 记 录 了 从 2000 年 开始 到 2011 年 之 间 每 月 的 降水 量 数 据 ， 本 节 将 以 
降水 量 进行 统计 计算 ， 找 出 其 规律 进行 分 析 。 


3.5.1 不 同年 份 的 相同 月 份 统计 

对 于 不 同年 份 ， 每 月 的 降水 量 也 是 不 同 ， 一 般 情况 下 ， 降 水 量 会 随 着 春 夏秋 冬 的 交 蔡 呈 
现 不 同 的 状态 ， 一 个 横向 变化 的 过 程 。 对 于 不 同 的 年 份 来 说 ， 每 月 的 降水 量 应 该 在 一 个 范围 
内 浮动 ， 而 不 应 偏离 均值 太 大 。 


【程序 3-13】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 
filePath = ("c://rain.csv") 


dataFile = pd.read_csv(filePath) 


summary = dataFile.describe() 


print (summary) 


array = dataFile.iloc[:,1:13].values 
boxplot (array) 

plot.xlabel ("month") 

plot.ylabel ( ("rain") ) 

show () 
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打印 结果 如 下 。 


count 
mean 
std 
min 
25% 
50% 
758 


max 


count 
mean 
std 
min 
258 
50% 
758 


max 


count 
mean 
std 
min 
258 
508 
758 


max 


0 
12.000000 
2005.500000 
3.605551 
2000.000000 
2002.750000 
2005.500000 
2008.250000 
2011.000000 


5 

12.000000 
1134.583333 
618.225240 
218.000000 
685.500000 
951.500000 
1599.000000 
2134.000000 


10 

12.000000 
1219.250000 
743.534938 
328.000000 
612.250000 
1208.500000 
1672.250000 
2561.000000 


al 

12.000000 
121.083333 

103.021144 

0.000000 
17.750000 
125.000000 
204.500000 
295.000000 


6 
12.000000 
2365.666667 
705.323180 
766.000000 
2117.000000 
2440.500000 
2723.750000 
3375.000000 


HIE 

12.000000 
159.333333 
124.611639 

0.000000 

64.000000 
123.000000 
278.250000 
357.000000 


2 S 4 


12.000000  Á 12.000000 12.000000 


67.833333 102.916667 263.416667 
72.148626 137.993714 246.690258 
0.000000 0.000000 70.000000 

9.750000 3.000000 136.250000 

39.500000 51.500000 155.000000 
123.250000 150.000000 232.500000 
192.000000 437.000000 833.000000 


qi 8 
12.000000 12.000000 
2529.000000 1875.500000 
1120.231226 603.135821 
865.000000 746.000000 
1770.250000 1723.500000 
2023.500000 1943.500000 
3603.000000 2321.750000 
4163.000000 2508.000000 


12 

12.000000 
38.333333 
34.494620 

0.000000 

18.750000 
25.500000 
46.250000 
100.000000 


9 

12.000000 
1992.416667 
670.834414 
621.000000 
1630.000000 
1961.000000 
2231.750000 
3097.000000 


从 打印 结果 可 以 看 到 ， 程 序 对 平均 每 个 月 份 的 降水 量 进行 了 计算 ， 获 得 了 其 偏 移 值 、 均 


值 以 及 均 方 差 的 大 小 。 


通过 四 分 位 的 计算 可 以 获得 一 个 波动 范围 ， 具 体 结果 如 图 3-15 所 示 。 
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Python 量化 交易 实战 


h00+48He | 


图 3-15 降水 量 的 四 分 位 图 


从 图 3-15 中 可 以 直观 地 看 到 ， 不 同月 份 之 间 的 降水 量 有 很 大 的 差距 ， 春 秋 〈1~4 H) 降 
水 量 明显 较 少 ，5 月 份 开始 降水 量 有 个 明显 增多 的 过 程 ， 而 在 7 月 份 达到 顶峰 后 回落 ，11 月 
份 和 12 月 份 达到 最 低 的 降水 量 。 

同时 可 以 看 到 ， 有 几 个 月 份 的 降水 量 有 明显 的 偏 移 ， 即 离 群 值 出 现 ， 这 点 可 能 跟 年 度 情 
况 有 关 ， 需 要 继续 进行 分 析 。 


3.5.2 不 同月 份 之 间 的 增 减 程度 比较 


正常 情况 下 ， 每 年 降水 量 都 呈现 一 个 平稳 的 增长 或 者 减少 的 过 程 ， 其 下 降 的 坡度 〈 趋 势 
线 ) 应 该 是 一 样 的 。【 程 序 3-14】 展 示 了 这 种 趋势 。 


【程序 3-14】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 
filePath = ("c://rain.csv") 

dataFile = pd.read_csv(filePath) 


summary = dataFile.describe() 

minRings = -1 

maxRings = 99 

nrows = 11 

for i in range (nrows): 
dataRow = dataFile.iloc[i,1:13] 
labelColor = (dataFile.iloc[i,12] - minRings) / (maxRings - minRings) 
dataRow.plot (color-plot.cm.RdYlBu(labelColor), alpha-0.5) 


第 3 章 Python 类 库 的 使 用 一 一 数据 处 理 及 可 视 化 展示 


plot.xlabel ("Attribute") 
plot.ylabel ( ("Score") ) 
show () 


最 终 打 印 结果 如 图 3-16 所 示 。 


(BN Figure i pest ——) 
[a00 +7 omz 


3-16 ”降水 量 的 趋势 图 


从 图 3-16 中 可 以 明显 地 看 到 ， 降 雨 的 月 份 并 不 是 规律 地 上 涨 或 下 跌 ， 而 是 呈现 一 个 不 规 
则 的 浮动 状态 ， 增 长 最 快 的 为 6、7 月 份 ， 而 下 降 最 快 的 为 7、8 月 份 ， 之 后 有 一 个 明显 的 回 
升 过 程 。 


3.5.3 每 月 的 降水 量 是 否 相关 

每 月 的 降水 量 理论 上 来 说 应 该 是 具有 相互 独立 性 的 ， 即 每 月 的 降水 量 和 其 他 月 份 没有 关 
系 。 但 是 实际 是 这 样 的 吗 ? 

【程序 3-15】 


from pylab import * 

import pandas as pd 

import matplotlib.pyplot as plot 
filePath = ("c:// rain.csv") 

dataFile = pd.read_csv(filePath) 


summary = dataFile.describe() 
corMat = DataFrame (dataFile.iloc[1:20,1:20].corr()) 


plot.pcolor (corMat) 
plot.show() 


通过 计算 ， 最 终结 果 如 图 3-17 所 示 。 
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x=0.7741: 


94 y=2.24214 


图 3-17 月 份 之 间 的 相关 性 显示 


从 图 3-17 可 以 看 到 ， 颜 色 分 布 比较 平均 ， 对 应 的 区 块 相互 之 间 没 有 太 大 的 相关 性 ， 因 此 
可 以 认为 每 月 的 降水 量 和 其 他 月 份 没有 关系 ， 是 独立 行为 。 


小 结 


本 章 从 直观 的 观察 开始 ， 逐 渐 深 入 介绍 和 研究 了 数据 集 和 分 析 工 具 ， 了 解 了 使 用 Python 


类 库 进 行 数据 分 析 的 基本 方 
行 分 析 和 处 理 ， 通 过 对 本 章 

使 用 相应 的 类 库 进行 深 
再 一 次 强调 ， 请 读者 尽量 使 


法 。 数 据 分 析 从 最 基本 的 矩阵 转换 开始 ， 直 到 对 数据 集 特 征 值 进 
内 容 的 学 习 ， 读 者 可 以 为 学 习 数 据 分 析 打 下 基础 。 

度 学 习 程 序 设 计 是 本 章 的 重点 ， 也 是 希望 读者 能 够 掌握 的 内 容 。 
用 Python 已 有 的 类 库 进行 程序 设计 。 在 数据 的 可 视 化 展示 过 程 


中 ， 通 过 做 出 多 种 数据 图 形 
望 本 章 中 提供 的 不 同 研究 方 


向 读者 演示 了 使 用 不 同 的 类 库 可 以 非常 直观 地 进行 数据 分 析 ， 和 希 
法 和 程序 设计 思路 能 够 帮助 读者 掌握 基本 数据 集 的 描述 性 和 统计 


值 之 间 的 关系 ， 这 些 非常 有 利于 对 数据 的 掌握 。 


本 章 是 数据 处 理 的 基础 
行 处 理 并 演示 更 多 的 值 。 
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， 内 容 简 单 ， 但 是 非常 重要 ， 和 希望 读 者 能 够 使 用 不 同 的 数据 集 进 


第 4 章 


< 骏 训 来 到 所 金 量 化 > 


欢迎 来 到 掘 金 量 化 ! 
气 金 量化 交易 平台 软件 启动 界面 见 图 4-1) 涵盖 量化 交易 完整 的 生命 周期 ， 支 持 多 语 


言 策略 开发 、tick 级 回 测 、 仿 真 交易 与 实 盘 交 易 ， 为 客户 提供 安 人 全、 专业、 高效 的 量化 IT 解 
决 方案 
本 章 


将 介绍 掘 金 量 化 平台 的 注册 与 使 用 。 


据 金 量化 3.0 全 新 


极致 追求 只 为 专业 


128 Mr 一 站 式 量化 平台 


图 4-1 掘 金 量化 


基础 工作 


本 节 将 介绍 使 用 掘 金 量 化 平台 前 需要 做 的 各 种 准备 工作 ， 包 括 从 开始 注册 到 获取 帮助 。 


4.1.1 安装 掘 金 终端 
在 处 理 测量 数据 时 ， 经 常 要 研究 变量 之 间 的 关系 。 变 量 之 间 的 关系 一 般 分 为 两 种 : 
€ ”完全 确定 关系 ， 即 函数 关系 。 
€ ”相关 关系 ， 即 变量 之 间 既 存在 着 密切 联系 ， 但 又 不 能 由 一 个 或 多 个 变量 的 值 求 出 另 
一 个 变量 的 值 。 


1. 下 载 终端 

登录 掘 金 官网 (http://www.myquantcn) 申请 试用 ， 申 请 通过 后 下 载 终端 。 完 成 后 双击 安 
装 应 用 程序 ， 进 入 安装 向 导 ， 根 据 向 导 完 成 安装 。 

2. 注册 用 户 /登录 用 户 

启动 终端 后 ， 进 入 用 户 登录 界面 ( 见 图 4-2) ， 使 用 手机 号 为 用 户 名 进行 注册 并 登录 。 


登录 掘 金 量化 3.0 


图 4-2 登录 据 金 量化 终端 


3. 安装 对 应 的 SDK 
进入 终端 后 ， 单 击 左 上 角 的 logo， 如 图 4-3 所 示 。 


图 4-3 单 击 登录 logo 
在 选择 策略 编辑 语言 界面 上 选择 自己 熟悉 的 语言 ， 进 行 相应 SDK 的 安装 ， 如 图 4-4 所 示 。 


图 4-4 安装 SDK 
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之 后 进入 掘 金 量化 终端 的 首页 ， 如 图 4-5 所 示 。 


请 选择 策略 编辑 语言 


4-5 掘 金 量化 终端 首页 


读者 需要 注意 的 是 ， 在 安装 SDK 之 前 ， 需 确认 已 经 安装 有 相应 的 编程 语言 环境 ， 比 如 
安装 Python 语言 的 SDK 前 ， 需要 先 安装 Python 2 或 者 Python 3.6 的 环境 。 这 里 建议 安装 
Python 3.6。 


4.1.2 获取 帮助 

在 掘 金 量 化 中 ， 获 取 帮 助 一 般 分 为 两 种 ， 从 网 站 直接 获取 帮助 和 通过 QQ 群 获取 帮助 。 
这 里 建议 读者 先 尝试 自己 从 网 站 查找 对 应 的 API 文档 ， 遇 到 经 过 查询 无 法 解决 的 问题 时 ， 再 
通过 QQ 群 获取 帮助 。 

1. 获取 帮助 

通过 首页 右上 方 的 “帮助 中 心 ”获取 帮助 ， 如 图 4-6 所 示 。 


4-6 单 击 “ 帮 助 中 心 ” 


2. 一 些 常用 页 面 介绍 
COD 依次 单 击 “ 帮 助 中 心 ” 一 “API 文档 ”一 Python， 在 代码 编写 过 程 中 ， 可 通过 该 页 
面 查阅 基本 API 函数 和 一 些 重要 概念 的 解释 ， 如 图 4-7 所 示 。 
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ETT PE yon | ENS | SESE 
定时 任务 
以 下 的 范例 代码 片段 是 一 个 非 党 篇 单 的 例子 ， 在 每 个 交易 日 的 14 : 50 : 00 BNR : 
1. # coding-utf-8 
from future import print function, absolute import, unicode literals 
4. from ga.api import * 
magan fa 
5. def init(context) 
MEGDGURSHUSm 7 schedule(schedule_funcealgo, date_rule="14', time_rule='14:50:00") 
E 
def algo(context): 
RUA + 购买 296 脸 清 发 银行 股票 
order volume(symbol-'SHSt.660000', volume-200, side-OrderSide_Suy, order_type-Ord 
naweza 
加 下 模式 与 交 对 模式 
EISE 
maese 
ET"HERE-5 
Tras 
REIHER: Init , 使 用 schedule 函数 进行 定时 任务 配置 
amas > RES, AeenTEeS 
cem 
apinsa > 


图 4-7 创建 策略 页 面 介绍 
(2) 依次 单 击 “ 帮 助 中 心 ” 一 “数据 文档 ”， 该 页 面 提供 详细 的 基本 面 数据 和 行情 数 


据 ， 如 图 4-8 所 示 。 


cnim eu POFTE = / KSDS sm d 
e y SOE: 股票 交易 行情 衍生 的 财务 数据 ， 
O) 数据 文档 
维护 8 间 范 贰 : 1990-12-19 至 今 
aum JG: trading derivative indicator 
Emus t 列 名 PURE 单位 mx 
mama > Dy EUNEURS12H- * 用 过 去 一 个 完整 日 历年 分 红 数 } 
按 证 监 会 口径 ) DAT SET Aura FT As 
财务 数据 ~ 
| = ea a 
企业 价值 / 
EVEBITDA 
meum RUBIKRHAREUS a 
mimis Eves SEU. x 
LTDATE 量 近 交易 日 默认 闻 段 ， 不 必 在 field 中 指定 , 
Ae 
Loy pengami2A-MCOe) 
" "E 针对 A 股 .该 字段 表示 根据 交际 
= : uides 
— NEGOTIABLEMV E: D d 元 asi — 5 
m PB TSSEPB) 信 市 净 率 = 当日 收盘 价 “ SALE 
市 现 替 = 当日 收盘 价 " Bos 
5 P - 
行业 概念 数据 > 'CLEY RELY LJ "— 


图 4-8 数据 文档 介绍 


除 此 之 外 ， 掘 金 网 站 上 有 很 多 不 同 的 页 面 能 够 提供 不 同 的 文档 介绍 和 帮助 ， 希 望 读者 多 
多 使 用 。 对 于 一 些 无 法 解决 的 问题 ， 还 可 以 通过 网 站 社区 上 提供 的 问答 来 解决 。 
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实战 : 使 用 掘 金 终 端 进行 回 测 工作 


下 面 开始 使 用 掘 金 终 端 进行 回 测 工作 。 使 用 掘 金 量化 相 比 较 其 他 平台 的 好 处 在 于 ， 可 以 
使 用 Python IDE 编辑 器 进行 数据 处 理 和 编辑 ， 并 通过 掘 金 终端 获取 回 测 结果 。 推 荐 使 用 IDE 
对 数据 进行 编辑 ， 而 不 是 使 用 掘 金 终端 对 工作 进行 回 测 。 


4.2.1 创建 第 一 个 策略 

下 面 将 带领 读者 创建 第 一 个 策略 。 

选择 主 界面 中 “策略 研究 ”， 进 入 策略 研究 页 面 ， 如 图 4-9 所 示 。 该 页 面 有 “新 建 策 
略 ” 和 “策略 研究 ”两 个 菜单。 


图 4-9 策略 研究 


单 击 “新 建 策略 ”菜单 ， 这 里 提供 了 多 个 不 同类 型 的 策略 模板 ， 可 选择 最 合适 的 模板 开 
始 编写 ， 如 果 都 不 匹配 ， 可 单 击 “ 空 策略 ”来 构建 全 新 的 策略 ， 如 图 4-10 所 示 。 


图 4-10 新 建 策略 
选择 所 需要 的 策略 类 型 ， 输 入 策略 名 之 后 ， 单 击 “ 确 认 ” 按 钮 ， 这 时 会 出 来 一 个 策略 
， 如 需 在 熟悉 的 IDE 中 编写 代码 ， 则 可 将 此 ID 复制 到 所 编写 的 代码 中 与 此 终端 进行 连 
， 方 可 进行 后 续 操作 ， 如 图 4-11 所 示 。 


A 日 
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SR HEAR) 


4 Ce ec | 
> " icum 
SRE EN ARR 
R u 


RS R(AIER) aet algo(cootert). 
wem n 3 RXIDRNEÜDRS 


order t goo, volume-200, sidenl, 


REET RRR) 


MICI (UR SES) 


图 4-11 策略 ID 


如 果 需 要 再 次 查看 策略 ID 或 者 修改 策略 解析 器 路 径 等 一 系列 策略 环境 配置 ， 可 以 单 击 
“设置 ”按钮 进行 设置 ， 如 图 4-12 所 示 。 


a) er oni mume moone - 5 
D Mes Dow 0 B many > EA 
€— m sez: meamea í 
- quotes = tick{ quotes") = 
p me m 
positio long ~ contert.actount() position(sysbol-cont 
ease 
position short - context. account().position(syabolect 
print (quotes[ "bid, p mans onsa 
print (quotes "ask p 
a anmi 


sysbol, voim — WINS 
Positionside Lt 


图 4-12 查看 相关 内 容 
这 是 使 用 掘 金 量 化 终端 创建 第 一 个 策略 的 方法 ， 更 多 的 尝试 希望 读者 自行 测试 完成 。 


42.2 ”运行 回 测 
下 面 进行 运行 回 测 。 


E 
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COD 单 击 “ 策 略 研究 ”， 选 择 指定 策略 进入 策略 编写 界面 ， 如 图 4-13 所 示 。 


print function, absolute import 


-algo datly*, tine rule- 1450,00: 
def algo 
n sst 600000 -ee 
der_type=2, positi t2, p 


3244-11e8-b0da-fcaslefisiod 


654869a8e78sba9f597adc7df 
2016-06-17 13:00:00 
2017-08-21 15:90:09 


图 4-13 策略 编写 界面 
(2) 该 页 面 是 一 个 完整 的 IDE 工作 区 ， 可 对 策略 内 容 进行 修改 调试 以 及 回 测 ， 若 策 
较 复 杂 ， 则 可 以 选择 右上 角 的 “分 页 ”按钮 对 策略 进行 分 段 编辑 ， 如 图 4-14 所 示 。 


f 


< muasiamum) Bzr sm kat QER eeu 
0D "= bao ea ^ x menpy 
mangy 9 coilspntf 
o port print function, absolute 
p 
init 
ncsalgo, date_rules'dai 
dot algo(context Get algo(context 
order_volume( symbol’ SHSE.686000', volume-2 order. voluse(sysbol»' SHSE .ceeeee 
2, position effe order_types2, position 
def on backtest. finished(context, indicator def on backtest. finished, dic 
print indicator) 


print( indicator) 


SHe4 UIA UF Python 


fin 


4-14 IDE 回 测 编辑 界面 
(3) 策略 修改 完成 之 后 ， 单 击 右上 方 的 “ 回 测 参数 ”按钮 可 对 策略 基本 数据 参数 进行 调 
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3E OWA 4-15) ， 随 后 单 击 “ 运 行 回 测 ” 按 钮 即 可 开始 回 测 。 


aanren Qomumen 


san ^ emm OFER 


Femur Orrar 


E - 


图 4-15 设置 起 始 参数 


42.3 查看 回 测 结果 
在 研究 策略 页 面 单 击 该 策略 中 “ 回 测 次 数 ”， 如 图 4-16 所 示 。 


ker se » i 
mase d 
LE) i sx ck me RO 
LE ME Ps OK za i 
A 定时 任务 (典型 场 时 )001 t FR CE z& 
LE od] a asa Baan: s Pa GR se (Dor 
谋 该 策略 的 回 测 历 史 列表 页 面 可 对 单一 回 测 结果 进行 备注 标识 ， 不 需要 的 回 测 可 进行 删除 操作 : 
《 [LM - 
= 7 
amus rese eas ama arez we =z E 
2018.03.19 143323 1716% " m e m z B 
2018-03-19 143121 1736% 1a o asist e mm 
2018-03-19 143113 — 20160617 ew m e m g 


图 4-16 回 测 次 数 
进入 对 应 的 回 测 结果 界面 ， 如 图 4-17 所 示 。 


54 


< AETA : 2016-06-17 130000 - 20 
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ju) 


1000,000007: 828420017: -171579.997% 0.007 -17.16% 


BARA: 2, 
"SER 


I1 


05-04 
EN 


图 4-17 进入 回 测 结果 页 面 
该 页 面 展示 了 此 策略 回 测 的 所 有 明细 情况 ， 包 括 收益 概览 、 信 号 分 析 、 交 易 明 细 、 每 
日 持仓 和 输出 日 志 。 可 单 击 屏 幕 右上 方 的 “结果 下 载 ” 将 回 测 结果 保存 在 本 地 ， 如 图 4-18 
所 示 。 


图 4-18 保存 回 测 结果 


至 此 ， 查 看 回 测 结果 介绍 完毕 ， 读 者 可 以 通过 下 载 据 金 IDE 和 安装 Python 类 库 来 自行 测 
试 ， 这 里 主要 以 了 解 为 主 ， 具 体 的 使 用 推荐 Python 专用 IDE， 例 如 Pycharm。 


4.24 使 用 PyCharm 进行 回 测 
前 面 已 经 介绍 过 ，PyCharm 是 一 种 Python IDE， 带 有 一 整套 可 以 帮助 用 户 在 使 用 Python 
语言 开发 时 提高 效率 的 工具 ， 比 如 调试 、 语 法 高 亮 、Project 管理 、 代 码 跳 转 、 智 能 提示 、 自 
动 完成 、 单 元 测试 、 版 本 控制 。 此 外 ， 该 IDE 提供 了 一 些 高 级 功能 ， 以 用 于 支持 Django 框 
架 下 的 专业 Web 开发 。 

掘 金 量化 支持 并 鼓励 读者 使 用 PyCharm 进行 量化 的 回 测 工作 ， 在 这 里 通过 一 个 例子 演示 
使 用 PyCharm 进行 回 测 的 结果 。 


1. 创建 一 个 新 的 Python 文件 


单 击 File 菜单 并 选择 New Project， 在 弹出 的 菜单 中 选择 Pure Python (编译 器 会 默认 选择 
当前 已 安装 的 Python 版 本 ) ， 如 图 4-19 所 示 。 
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Python 量化 交易 实战 


图 4-19 新 建 一 个 Python 工程 
在 名 为 untitled 的 新 建 项 目 里 ， 右 击 它 并 选择 New- File 来 新 建文 件 ， 如 图 4-20 所 示 。 


图 4-20 创建 一 个 新 文件 
输入 新 的 文件 名 ， 例 如 HelloQuant， 如 图 4-21 所 示 。 


Bl New Python file 


Name: |HelloQuant 
Kind: | Í$ Python file 


[Lex] 


图 4-21 设置 文件 名 


2. 从 掘 金 量化 终端 中 复制 回 测 框架 
在 “策略 研究 ”页 面 单 击 “ 新 建 策略 ”菜单 ， 如 图 4-22 所 示 。 


a E SHES (BER) 确认 


数据 事件 驱动 (旧型 场景) BA. UD. REESEULBR0 S T: RARER LSB, TRIES 
(3 时 间 序列 数据 事件 驱动 ( 裴 型 场景) $ codingzutf-8 
ERA pane from future | import print function, absolute import 


多 个 代码 数据 事件 驱动 (典型 场景 ) 


AMATHRMED, SENE 


Schedule (schedule, funccalgo, date_rule-‘daily', tine_rute-'14:50:80") 
SK REPERI SEVER) 
TG HIE def algo(context): 
TES * OR 2008 WHT 
order volame(syabo 
order type-2, position_effect=1, price-0) 


E.G00000', vclume-200, side-l, 


显 式 指定 交易 账户 (典型 场 景 ) 
NPOHIEES MAG CEFET + 查看 最 终 的 加 到 结果 
def on_backtest_finished(context, indicator): 
print(indicator) 
EIS (RUN) m 
AURIS, SRST ir 
数据 研究 (典型 场景) 
ERSTE, ETEEN 6-17 13:00:08", 
backtest end tine-'2017-08-21 15:00:00") 


alphaxfd(8e St + E85) 


SUBIDO DON 


集合 竞价 选 股 (股票 ) 


多 因子 选 股 (股票 ) 


图 4-22 新建 策略 
之 后 选择 一 个 任务 ， 这 里 建议 选择 定时 任务 ， 单 击 “ 确 认 ” 按 钮 进行 创建 。 之 后 确定 部 


分 变 为 如 图 4-23 所 示 的 形态 。 


(RIR) 


fe6-11e8-a628-4cedfb681747 研习 ID 


4-23 ”确定 已 创建 的 任务 


此 时 单 击 “ 策 略 编辑 ”按钮 对 策略 进行 编辑 处 理 。 这 里 生成 的 是 一 个 具有 完整 框架 的 回 
测 程序 ， 如 图 4-24 所 示 。 


bf 


2 from future import print function, absolute import 


4 from gm.api import * 


= def init(context) 


schedule(schedule func-algo, date rule-'daily', time rule-'14:50:00') 


def algo(context) 
14 order volume(symbol-'SHSE.600000', volume-200, side=1, 
order type-2, position effect-1, price-8) 


def on backtest finished(context, indicator) 
print(indicator) 


if _name_ == ain 
run(strateg; '36b0SbSf-Bfe6-11e8-a628-4cedfb681747', 
filename-'main.py', 


mode-MODE BACKTEST, 
token- 'e8978d765c4822e5a85fcaa73e044065cf17bS8b' , 
backtest start time-'2016-06-17 13:00:00', 
backtest end time-'2017-08-21 15:00:00') 


图 4-24 创建 策略 文件 


【程序 4-1】 


# coding=utf-8 
from future import print function, absolute import 


from gm.api import * 


def init(context): 
# 每 天 14:50 定时 执行 algo 任务 


schedule (schedule func=algo, date rule-'daily', time rule='14:50:00') 


def algo (context): 
* 购买 200 股 浦发 银行 股票 
order volume (symbol='SHSE.600000', volume-200, side=1, 
order type=2, position effect=1, price=0) 
+ 查看 最 终 的 回 测 结果 
def on backtest finished(context, indicator): 
print (indicator) 
TE name == ' main ': 
run (strategy id-'36b05b5f-8fe6-11e8-a628-4cedfb681747', 
filename='main.py', 
mode=MODE BACKTEST, 
token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-'2016-06-17 13:00:00', 
backtest end time-'2017-08-21 15:00:00") 


可 以 将 以 上 代码 段 复制 到 PyCharm IDE 中 直接 使 用 ， 与 正常 的 掘 金 IDE 一 样 。 


意 
im 
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第 4 章 欢迎 来 到 掘 金 量化 


显示 的 回 测 结果 如 图 4-25 所 示 。 


4-25 ”显示 策略 回 测 结果 


LS 小 结 


本 章 主要 介绍 使 用 掘 金 IDE 对 数据 进行 回 测 ， 首 先 使 用 的 是 掘 金 专用 的 客户 端 ， 但 是 这 
并 不 是 作者 建议 的 方式 ， 建 议 使 用 专门 的 PyCharm IDE 编辑 器 对 数据 进行 编辑 。 
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28 5 = 


hl tB 
< Talib 金 融 库 使 用 详解 > 


[和 欲 善 其 事 必 先 利 其 器 。 

前 面 介绍 了 Numpy. pandas 以 及 Matplot 等 多 种 常用 的 Python 类 库 的 使 用 。 虽 然 这 些 工 
有 具 能 帮助 读者 准确 获取 所 关注 的 内 容 ， 但 是 由 于 其 不 具有 专业 性 ， 还 需要 额外 让 读者 自行 编 
写 程 序 进行 下 一 步 的 解析 。 

Talib 的 简称 是 Technical Analysis Library， 主 要 功能 是 计算 行情 数据 的 技术 分 析 指 标 ， 
用 来 开发 技术 分 析 策 略 。 官 网 称 其 为 TA-Lib， 为 了 简便 起 见 ， 本 书 使 用 Talib 指 代 TA-Lib。 


Talib 金融 工具 库 的 介绍 


Talib 的 中 文 翻译 为 技术 分 析 库 ， 是 一 种 以 Python 为 基础 的 广泛 用 于 量化 交易 中 对 金融 
市 场 数据 进行 分 析 的 函数 库 。 其 通过 内 置 的 函数 给 使 用 者 提供 了 多 种 技术 分 析 函 数 和 多 种 变 
量 ， 极 大 地 方便 了 量化 投资 中 的 数据 编程 工作 。 下 面 以 股票 分 析 为 例 进行 介绍 ， 其 他 如 期 
货 、 期 权 的 交易 在 程序 设计 上 类 似 ， 就 不 再 额外 阐述 了 。 


5.1.1 使 用 Talib 获取 3 日 、 7 日 、15 audi 
学 习 一 个 新 的 技术 ， 最 好 的 方法 是 实际 进行 在 实际 


(1) 对 于 Talib 的 使 用 ， 首 先 需要 获取 实时 的 股票 数据 ， 通 过 使 用 第 4 章 所 提供 的 API 
可 以 很 方便 地 取得 所 需要 的 数据 ， 代 码 如 下 : 


from gm.api import * 
import numpy as np 
import talib 
第 一 步 是 引入 所 需要 的 Python 库 包 ， 这 里 gm.api 是 气 金 量化 通信 包 ; numpy 是 数学 处 
理 包 ， 对 于 获得 的 数据 进行 处 理 ，Talib 是 本 章 介绍 的 包 ， 用 于 对 数据 进行 下 一 步 处 理 。 


(2) 在 前 面 介绍 掘 金 量化 库 包 的 时 候 说 过 ， 与 掘 金 量化 数据 库 进 行 通信 必须 使 用 对 应 的 


账户 与 密码 ， 而 下 面 的 代码 中 ，set_token 是 将 所 对 应 的 账户 与 密码 进行 加 密 后 发 送 给 服务 器 
端 。history_n 函数 用 于 获取 前 若干 段 的 时 间 序 列 内 容 。 


Set token (! 4444444444 4 AKER AEA A KERR A AERA REA A AM) 


data = history n(symbol-"SZSE.399006",frequency-"1d",count-100,end time-"2017- 
12-31",fields-"close",fill missing-"last",adjust-ADJUST PREV,df-True) 


(3) 对 获取 的 数据 进行 处 理 ， 对 于 不 同 的 目的 来 说 ， 所 需要 的 均线 值 不 同 ，Talib 提供 了 

相应 的 均线 计算 值 ， 代 码 如 下 : 
close = np.asarray (data["close"] .values) 
(4) 前 面 已 经 说 过 ，history_n 函数 通过 设置 参数 df-True 获得 一 个 pandas 类 型 的 返回 
值 。 提 取 pandas 的 返回 值 ， 并 通过 Numpy 设置 成 数组 矩阵 。 
ma3 = talib.MA(close,timeperiod = 3) 

(5) Talib 中 的 MA 函数 是 计算 滑动 平均 值 的 专用 函数 ， 通 过 设置 timeperiod 时 间 周 期 
以 计算 相应 的 滑动 平均 周期 。 

【程序 5-1】 


from gm.api import * 


import talib 


import numpy as np 
set_token ("9e02621le7f£cf£850731def2e8a9del fdbdSb21ad6") 


data = history n(symbol-"SZSE.399006",frequency-"1d",count-100,end time-"2017- 
12-31",fields-"close",fill missing-"last",adjust-ADJUST PREV,df-True) 

close - np.asarray (data["close"].values) 

ma3 = talib.MA(close,timeperiod = 3) 


print (ma3) 


最 终 打 印 结果 如 图 5-1 所 示 。 


[ nan nan nan nan 1756.86557617 
1763.07770996 1770.18171387 1782.60927734 1798.55507812 1814.4878418 
1821.63481445 1824.90405273 1821.33994141 1813.80812988 1812.0230957 
1814.74545898 1818.08063965 1824.33354492 21835.06149902 1845.53588867 
1853.69377441 1864.4079834  1877.25314941 1885.45383301 1889.45856934 
1892.01005859 1891.87443848 1888.9895752 1886.76359863 1884.83579102 
1884.52116699 1883.68361816 1884.53093262 1883.23439941 1881.39238281 
1871.15620117 1862.98798828 1855.44274902 1851.83562012 1851.9470459 
1861.19040527 1876.79086914 1886.11245117 1895.16286621 1906.98139648 
1905.55100098 1897.45773926 1890.77932129 1883.30432129 1874.1322998 


图 5-1 5 日 滑动 平均 值 
从 打印 结果 可 以 看 到 ， 前 4 项 数据 内 容 由 于 滑动 平均 周期 的 设置 ， 没 有 相应 的 内 容 ， 这 
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在 显示 时 并 没有 什么 问题 ， 但 是 在 后 续 计 算 时 ， 由 于 nan 并 不 是 一 个 具体 的 数值 ， 有 很 大 可 
能 报错 。 

这 里 NumPy 提供 了 相应 的 函数 对 其 进行 处 理 ， 代 码 如 下 : 
ma3 = np.nan to num(ma3) 

具体 结果 请 读者 自行 验证 。 

而 对 于 不 同 滑动 平均 值 的 计算 ， 通 过 设置 不 同 的 tmeperiod 值 进行 针对 性 设置 。 

可 能 有 读者 提出 疑问 ， 在 介绍 history n 函数 时 ， 着 重 介绍 了 其 中 的 参数 设置 ， 其 中 的 参 
数 之 一 frequency 是 对 函数 获取 的 标的 时 间 周 期 进行 设置 ， 此 时 在 【程序 5-2】 中 可 以 通过 获 
取 不 同 的 frequency 对 序列 时 间 进 行 设置 。 

【程序 5-2】 


from gm.api import * 


import talib 


import numpy as np 
set token ("9e02621e7fcf850731def2e8a9delfdbd5b21ade") 


data = 
history n(symbol-"SZSE.399006",frequency-"3600s",count-100,end time-"2017-12- 
31",fields-"close",fill missing-"last",adjust-ADJUST PREV,df-True) 
close = np.asarray (data["close"].values) 
ma5 = talib.MA(close,timeperiod = 5) 
ma5 = np.nan to num(ma5) 
print (ma5) 

通过 不 同 timeperiod 可 以 获取 不 同 的 时 间 端 数据 。 然 而 无 论 获取 的 数据 多 少 ， 其 都 是 基 
于 统一 的 “14”， 也 就 是 以 日 为 时 间 周 期 去 获取 。 而 有 时 读者 在 进行 程序 设计 的 时 候 需 要 使 
用 不 同 的 时 间 周 期 去 进行 处 理 ， 此 时 则 只 需要 将 frequency 设置 成 


frequency="3600s" 


即 可 。 


5.1.2 EMA 的 计算 


EMA 的 中 文 意思 是 指数 平均 数 指标 ， 也 叫 EXPMA 指标 ， 是 一 种 趋向 类 指标 ， 是 以 指数 
式 递 减 加 权 的 移动 平均 。 
EMA 的 公式 如 下 : 


EMA—aXPricex* (1—a) XPrice (N—1) 
Bh, a 为 平滑 指数 ， 一 般 取 作 2/(N+1)。 
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【程序 5-3】 


from gm.api import * 


import talib 


import numpy as np 


set_token ("9e02621e7fcf850731def2e8a9delfdbd5b21ade6") 
data = history n(symbol-"SZSE.399006",frequency-"ld",count-100,end time-"2017- 
12-31", fields="close", fill missing-"last",adjust-ADJUST PREV,df-True) 


close = np.asarray (data["close"] .values) 


ema 


ema 


talib.EMA (close) 


= np.nan to num(ema) 


print (ema) 


同样 ，EMA 的 最 终 计算 结 果 上 ， 前 面 若干 个 值 为 空 ， 通 过 nan to num 将 其 转化 成 值 为 


0 的 数 。 结 果 如 图 5-2 所 示 。 


e. e. e. e e 
e. e. e. e. e. 
e. e. e. e. e. 
e e e e e 


e. e. e. e. e. 
1833.86779378 1837.79904877 1840.54081251 1843.90391785 1845.76623124 
1847.09902668 1846.87465966 1846.39599273 1846.94739636 1847.44976633 
1848.7098904 1851.36332552 1855.62747495 1858.59026103 1861.26096716 
1865.44247514 1866.55497076 1867.22828445 1867.28830283 1866.98655465 


图 5-2 滑动 平均 值 计算 结果 
有 读者 看 到 这 里 会 提出 疑问 ， 为 什么 前 面 会 有 29 个 0 ff (an) o XE EMA 的 函数 代 


码 如 下 : 


def 


EMA (real, *args, **kwargs): # real signature unknown; NOTE: unreliably 


restored from doc __ 


EMA(real[, timeperiod=?]) 
Exponential Moving Average (Overlap Studies) 
Inputs: 
real: (any ndarray) 
Parameters: 
timeperiod: 30 
Outputs: 
real 


"nn 


pass 


可 以 看 到 ， 这 里 的 时 间 周 期 被 设置 成 30， 如 果 有 别 的 需要 ， 例 如 在 MACD 或 者 RSI 中 


计算 不 同 的 时 间 趋 势 时 ， 则 可 以 通过 对 时 间 周 期 进行 设置 从 而 获得 不 同 的 结果 。 请 读者 自行 
设置 验证 。 
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5.1.3 MACD 的 计算 


MACD 称 为 指数 平滑 移动 平均 线 ， 是 金融 分 析 指 标 中 常用 的 一 个 数据 指标 ， 用 于 对 股票 
趋势 的 分 析 。 

MACD 的 意义 和 双 移 动 平均 线 基本 相同 ， 即 由 快 、 慢 均线 的 离散 、 聚 合 表征 当前 的 多 空 
状态 和 股价 可 能 的 发 展 变化 趋势 ， 但 阅读 起 来 更 方便 。 当 MACD 从 负数 转向 正 数 时 ， 是 买 
的 信号 。 当 MACD 从 正 数 转向 负数 时 ， 是 卖 的 信号 。 当 MACD 以 大 角度 变化 时 ， 表 示 快 的 
移动 平均 线 和 慢 的 移动 平均 线 的 差距 非常 迅速 地 拉 开 ， 代 表 一 个 市 场 大 趋势 的 转变 。 

同样 ，Talib 中 也 提供 了 这 个 指标 的 处 理 函数 ， 代 码 如 下 : 


def MACD(real, *args, **kwargs): # real signature unknown; NOTE: unreliably 
restored from _ doc — 
"nn 
MACD(real[, fastperiod-?, slowperiod-?, signalperiod-?]) 
Inputs: 
real: (any ndarray) 
Parameters: 
fastperiod: 12 
slowperiod: 26 
signalperiod: 9 


Outputs: 
macd 
macdsignal 
macdhist 
"n 
pass 


这 里 简单 介绍 一 下 MACD 函数 。 可 以 看 到 ， 在 函数 说 明 中 ，MACD 函数 的 默认 值 分 别 
为 12、26、9。 这 里 分 别 是 快速 〈 一 般 选 12 HD 移动 平 均值 与 慢 速 (一 般 选 26 日 ) 移动 平 
均值 。 

以 这 两 个 数值 作为 测量 两 者 (快速 与 慢 速 线 ) 间 的 “ 差 离 值 ”的 依据 。 所 谓 “ 差 离 
fi" (DIF) , BY 12 A EMA 数值 减 去 26 H EMA 数值 。 因 此 ， 在 持续 的 涨 势 中 ，12 日 
EMA 在 26 H EMA 之 上 。 其 间 的 正 差 离 值 (+DIF) 会 愈 来 愈 大 。 反 之 在 跌 势 中 ， 差 离 值 
可 能 变 负 -DIF) ， 也 愈 来 愈 大 。 至 于 行情 开始 回转 ， 正 或 负 差 离 值 要 缩小 到 一 定 的 程度 ， 
才 真正 是 行情 反 转 的 信号 。MACD 的 反 转 信号 界定 为 “ 差 离 值 ” 的 9 日 移动 平均 值 (9 日 
EMA) 。 

MACD 的 使 用 代码 如 下 : 


macd, signal, hist = talib.MACD(close, fastperiod=12, slowperiod=26, 


signalperiod=9) 
对 于 其 返回 值 来 说 ，signal 与 hist 分 别 为 MACD 的 参数 辅助 量 ， 现 在 可 以 不 考虑 。 完 整 
代码 如 下 : 


64 


【程序 5-4】 


from gm.api import * 

import talib 

import numpy as np 

set token ("9e02621e7fcf850731def2e8a9delfdbd5b21ad6") 


data = history n(symbol-"SZSE.399006",frequency-"1d",count-100,end time-"2017- 
12-31",fields-"close",fill missing-"last",adjust-ADJUST PREV,df-True) 


close = np.asarray (data["close"].values) 


macd, signal, hist = talib.MACD(close, fastperiod=12, slowperiod=26, 
signalperiod=9) 
macd = np.nan to num(macd) 


print (macd) 


结果 如 图 5-3 所 示 。 


[ e g e g 9. e. 9. 
e e e e e. e. e. 
e e e e e. e. e. 
e e e e e. e. e. 
e e e e e 25.7819188 


22.91714579 18.59244096 14.65992805 12.64729896 10.90968213 
10.40098779 11.70721449 14.80046144 15.78634621 16.254062 
18.51637928 16.61667157 14.48464484 11.94457842  9.37585263 
8.66070096 9.48108596 10.24979057 11.65833057 12.42620038 
11.72964957 7.84044392 5.80493218 4.38005903 1.20500812 
-2.4608435 -3.92195266 -4.32276903 .-4.02322122 -2.30923084 
0.37772329  2.94176082  4.14201739  2.7505036 ^ 2.44091842 
-1.36848967 -2.27499697 -3.18178692 -4.14176998 -9.52112149 
714.59436889 -20.13843504 -21.62265145 -23.05648575 -25.27961185 
-23.9954489  -23.26288752 -25.54896309 -24.99674712 -24.86356266 
-23.26608476 -19.76867039 -18.26258327 -16.28422296 -15.48566071 
-15.51084573 -15.61936569 -14.10181762 -14.03561284 -13.23962222 
-13.29449209 -15.06326968 -16.03692785 -17.70067982 -18.81990271 
-18.87329326] 


图 5-3 MACD 计算 结果 


可 以 看 到 图 中 的 值 有 正 值 和 负 值 ， 根 据 MACD 的 设计 形式 ， 当 MACD 的 值 由 负 变 成 正 
的 时 候 ， 是 买 入 点 。 而 值 由 正 变 成 负 的 时 候 ， 就 是 对 应 的 卖 出 点 。 
其 次 ， 对 于 MACD 函数 中 参数 的 设置 ， 读 者 也 可 以 直接 写成 : 


macd, signal, hist = talib.MACD(close) 


这 样 使 用 的 是 talibMACD 的 默认 参数 ， 如 果 读 者 有 其 他 的 需求 ， 也 可 以 自 定义 使 用 不 
同 的 时 间 周 期 去 进行 演练 。 


macd, signal, hist = talib.MACD(close, fastperiod=x, slowperiod=y 


signalperiod=z) 


代码 中 的 x、y、z 分 别 为 对 应 的 周期 值 。 

有 的 时 候 对 于 数据 的 展示 ， 更 多 的 是 希望 以 图 形 的 形式 将 其 展示 出 来 ， 根 据 生成 的 macd 
返回 值 可 以 获得 一 组 用 于 图 形 展示 的 数组 ， 而 此 时 通过 对 应 的 作 图 程序 可 以 很 方便 地 将 其 展 
示 出 来 ， 代 码 如 下 : 
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【程序 5-5】 


from gm.api import * 

import talib 

import numpy as np 

import matplotlib.pyplot as plt 


set_token ("9e02621e7fcf850731def2e8a9delfdbd5b21ade6") 


data = history n(symbol-"SZSE.399006",frequency-"ld",count-100,end time-"2017- 
12-31", fields="close", fill missing-"last",adjust-ADJUST PREV,df-True) 


close = np.asarray (data["close"].values) 
macd, signal, hist = talib.MACD(close) 


macd = np.nan to num(macd) 


plt.plot (macd,"r") 
plt.show() 


最 终 显 示 结 果 如 图 5-4 所 示 。 


0 20 40 60 80 100 
图 5-4 MACD 计算 结果 的 图 形 化 展示 


这 里 可 以 看 到 ， 在 设 定 的 时 间 周 期 上 ，MACD 的 值 在 连续 降低 ， 负 值 明显 多 于 正 值 ， 可 
以 认为 这 段 时 间 周 期 中 指数 在 不 停 地 降低 。 


5.1.4 MACD 斜率 的 计算 方法 
MACD 的 值 只 能 用 于 反映 不 同时 间 周期 内 的 买卖 趋势 情况 。 而 对 于 上 涨 的 快慢 ，MACD 
并 没有 提供 相应 的 函数 去 进行 计算 ， 此 时 读者 可 以 通过 其 他 的 既 有 函数 去 获取 相应 的 值 。 
斜率 表示 一 条 直线 (或 曲线 的 切线 ) 关于 《〈 横 ) 坐标 轴 倾 斜 程度 的 量 。 它 通常 用 直线 (或 
曲线 的 切线 ) 与 〈 横 ) 坐标 轴 夹 角 的 正切 ， 或 两 点 的 纵 坐 标 之 差 与 横 坐 标 之 差 的 比 来 表示 。 
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在 这 里 指 的 是 MACD 值 在 单位 时 间 内 变化 情况 的 大 小 。NumPy 提供 了 专门 的 函数 去 处 
理 相 邻 数 间 的 差 值 大 小 。 
def diff(a, n-1, axis--1): 

其 作用 是 对 传 入 的 一 维 数 组 进行 差 值 计算 ， 返 回 相 邻 数 之 间 的 对 应 差 值 。 

【程序 5-6】 


from gm.api import * 
import talib 
import numpy as np 


import matplotlib.pyplot as plt 
set_token ("9e02621le7f£cf£850731def2e8a9del Fdbd5b21ad6") 


data = history _n(symbol="SZSE.002310", frequency="1d", count=100, end_time="2018- 
12-31", fields="close", fill missing-"last",adjust-ADJUST PREV,df-True) 


close = np.asarray (data["close"].values) 
macd, signal, hist = talib.MACD(close) 


macd = np.nan_to_num(macd) 


macd_gradient = np.diff (macd) 


print (macd_gradient) 


【程序 5-6】 展 示 了 使 用 di 全 函数 计算 MACD 斜率 数值 的 方法 ， 其 结果 如 图 5-5 所 示 。 


[ e. e. e. e. ð. e. e. 
e. e. e. e. e. e. e. 
e. e. e. e. e. e. e. 
e. e. e. e. e. e. e. 
e. e. e. e. 0.46324258 @.02475937 


0.02739835 0.01718792 9.01537402 -0.05402847 0.00070214 -0.01386174 
0.00679473 0.04603497 0.04035663 -0.00762896 0.04261175 0.02963671 
0.02391946 20.02156092 20.00590579 -0.03514447 -0.00947015 -0.05386237 


5-5 MACD 斜率 的 计算 结果 
图 5-5 展示 了 部 分 内 容 ， 这 里 需要 与 图 5-3 对 比 观察 。 


5.1.5 使 用 Talib 实现 国内 金融 数据 指标 
对 于 国内 常用 的 金融 指标 ， 在 设计 和 具体 的 数据 计算 上 略 有 不 同 ， 这 里 通过 使 用 Talib 
实现 部 分 数据 指标 。 


1. SMA_CN 的 实现 


def SMA_CN(close, timeperiod) 


return reduce(lambda x, y: ((timeperiod - 1) * x + y) / timeperiod, close) 
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2. RSI_CN 的 实现 


def RSI CN(close, timeperiod) : 

diff = map(lambda x, y: x - y, close[1:], close[:-1]) 

diffGtO = map (lambda x: 0 if x < 0 else x, diff) 

diffABS = map(lambda x: abs(x), diff) 

diff = np.array (diff) 

diffGt0 = np.array (diffGt0) 

diffABS = np.array (diffABS) 

diff = np.append(diff[0], diff) 

diffGtO = np.append(diffGt0[0], diffGtO) 

diffABS = np.append(diffABS[0], diffABS) 

rsi = map(lambda x: SMA CN(diffGtO[:x], timeperiod) / SMA CN(diffABS[:x], 
timeperiod) * 100, 

range(1, len(diffGtO) + 1)) 


return np.array (rsi) 


3. KDJ. CN 的 实现 


def KDJ CN(high, low, close, fastk period, slowk period, fastd period): 
kValue, dValue - talib.STOCHF(high, low, close, fastk period, 
fastd period-1, fastd matype-0) 
kValue - np.array(map(lambda x: SMA CN(kValue[:x], slowk period), range(1, 
len(kValue) + 1))) 
dValue - np.array(map(lambda x: SMA CN(kValue[:x], fastd period), range(1, 
len(kValue) + 1))) 


jValue - 3 * kValue - 2 * dValue 


func = lambda arr: np.array([0 if x < 0 else (100 if x > 100 else x) for x 


in arr]) 


kValue = func(kValue) 
dValue = func(dValue) 
jValue - func(jValue) 


return kValue, dValue, jValue 


4. MACD CN 的 实现 


def MACD CN(close, fastperiod = 12, slowperiod = 26, signalperiod = 9): 
macdDIFF, macdDEA, macd = talib.MACDEXT(close, fastperiod-fastperiod, 
fastmatype-1,slowperiod-slowperiod, slowmatype-1, signalperiod-signalperiod, 

signalmatype-1) 
macd = macd * 2 


return macdDIFF, macdDEA, macd 
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Talib 金融 工具 库 函 数 


5.1 节 介绍 了 量化 金融 中 常用 的 滑动 平均 、MACD 等 ， 除 此 之 外 ，Talib 还 提供 了 一 些 其 
他 常用 的 用 以 量化 分 析 的 函数 ， 参 见 表 5-1。 


表 5-1 Talib 常用 函数 名 及 简称 


B 
C 


CDL3BLACKCROWS 


CDL3INSIDE 


ADOSC Chaikin A/D Oscillator 
Average Directional Movement Index 


简称 

AD Chaikin A/D Line 

ADX recti X 

ADXR Average Directional Movement Index 

APO a ` 
R E 
P 
I 


函数 名 


P 
ji 
D 


CDL2CROWS Two Crows 


Three Black Crows 


Three Inside Up/Down 


CDL3LINESTRIKE 


Three-Line Strike 


CDL30UTSIDE Three Outside Up/Down 
CDL3STARSINSOUTH Three Stars In The South 
CDL3WHITESOLDIERS Three Advancing White Soldiers 


CDLABANDONEDBABY Abandoned Baby 


CDLADVANCEBLOCK 


CDLBELTHOLD 


Advance Block 


Belt-hold 


CDLBREAKAWAY 


CDLCLOSINGMARUBOZU 


Breakaway 


Closing Marubozu 
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( 续 表 ) 


简称 函数 名 
CDLCONCEALBABYSWALL Concealing Baby Swallow 
CDLCOUNTERATTACK Counterattack 
CDLDARKCLOUDCOVER Dark Cloud Cover 
CDLDOJI Doji 

CDLDOJISTAR Doji Star 
CDLDRAGONFLYDOJI Dragonfly Doji 
CDLENGULFING Engulfing Pattern 
CDLEVENINGDOJISTAR Evening Doji Star 
CDLEVENINGSTAR Evening Star 
CDLGAPSIDESIDEWHITE Up/Down-gap side-by-side white lines 
CDLGRAVESTONEDOJI Gravestone Doji 
CDLHAMMER Hammer 
CDLHANGINGMAN Hanging Man 
CDLHARAMI Harami Pattern 
CDLHARAMICROSS Harami Cross Pattern 
CDLHIGHWAVE High-Wave Candle 
CDLHIKKAKE Hikkake Pattern 
CDLHIKKAKEMOD Modified Hikkake Pattern 
CDLHOMINGPIGEON Homing Pigeon 
CDLIDENTICAL3CROWS Identical Three Crows 
CDLINNECK In-Neck Pattern 
CDLINVERTEDHAMMER Inverted Hammer 
CDLKICKING Kicking 
CDLKICKINGBYLENGTH Kicking - bull/bear determined by the longer marubozu 
CDLLADDERBOTTOM Ladder Bottom 
CDLLONGLEGGEDDOJI Long Legged Doji 
CDLLONGLINE Long Line Candle 
CDLMARUBOZU Marubozu 
CDLMATCHINGLOW Matching Low 
CDLMATHOLD Mat Hold 
CDLMORNINGDOJISTAR Morning Doji Star 
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( 续 表 ) 


简称 函数 名 

CDLMORNINGSTAR Morning Star 

CDLONNECK On-Neck Pattern 

CDLPIERCING Piercing Pattern 

CDLRICKSHAWMAN Rickshaw Man 
CDLRISEFALL3METHODS Rising/Falling Three Methods 
CDLSEPARATINGLINES Separating Lines 

CDLSHOOTINGSTAR Shooting Star 

CDLSHORTLINE Short Line Candle 

CDLSPINNINGTOP Spinning Top 

CDLSTALLEDPATTERN Stalled Pattern 

CDLSTICKSANDWICH Stick Sandwich 

CDLTAKURI Takuri (Dragonfly Doji with very long lower shadow) 
CDLTASUKIGAP Tasuki Gap 

CDLTHRUSTING Thrusting Pattern 

CDLTRISTAR Tristar Pattern 

CDLUNIQUE3RIVER Unique 3 River 
CDLUPSIDEGAP2CROWS Upside Gap Two Crows 
CDLXSIDEGAP3METHODS Upside/Downside Gap Three Methods 
CMO. Chande Momentum Oscillator 

CORREL Pearson's Correlation Coefficient (r) 
DEMA Double Exponential Moving Average 

DX Directional Movement Index 

EMA Exponential Moving Average 

HT DCPERIOD Hilbert Transform - Dominant Cycle Period 
HT DCPHASE Hilbert Transform - Dominant Cycle Phase 
HT PHASOR Hilbert Transform - Phasor Components 
HT SINE Hilbert Transform - SineWave 


HT TRENDLINE 


Hilbert Transform - Instantaneous Trendline 


HT TRENDMODE 


KAMA 


Hilbert Transform - Trend vs Cycle Mode 


Kaufman Adaptive Moving Average 


LINEARREG 


Linear Regression 
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( 续 表 ) 


简称 函数 名 
LINEARREG ANGLE Linear Regression Angle 
LINEARREG INTERCEPT Linear Regression Intercept 


LINEARREG SLOPE 


Linear Regression Slope 


MA All Moving Average 

MACD Moving Average Convergence/Divergence 
MACDEXT MACD with controllable MA type 

MACDFIX Moving Average Convergence/Divergence Fix 12/26 
MAMA MESA Adaptive Moving Average 

MAX Highest value over a specified period 

MAXINDEX Index of highest value over a specified period 
MEDPRICE Median Price 

MFI Money Flow Index 

MIDPOINT MidPoint over period 

MIDPRICE Midpoint Price over period 

MIN Lowest value over a specified period 

MININDEX Index of lowest value over a specified period 
MINMAX Lowest and highest values over a specified period 
MINMAXINDEX Indexes of lowest and highest values over a specified period 
MINUS DI Minus Directional Indicator 

MINUS DM Minus Directional Movement 

MOM Momentum 

NATR Normalized Average True Range 

OBV On Balance Volume 

PLUS DI Plus Directional Indicator 

PLUS DM Plus Directional Movement 

PPO Percentage Price Oscillator 

ROC Rate of change : ((price/prevPrice)-1)*100 

ROCP Rate of change Percentage: (price-prevPrice)/prevPrice 
ROCR Rate of change ratio: (price/prevPrice) 

ROCRI00 Rate of change ratio 100 scale: (price/prevPrice)*100 
RSI Relative Strength Index 
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[€ 2:3] 


函数 名 


Parabolic SAR 


Parabolic SAR - Extended 


Simple Moving Average 

Standard Deviation 

Stochastic 
STOCHF Stochastic Fast 
STOCHRSI Stochastic Relative Strength Index 
SUM Summation 


Triple Exponential Moving Average (T3) 


Triple Exponential Moving Average 

Tre Range 

Triangular Moving Average 

[mx | 1-day Rate-Of-Change (ROC) of a Triple Smooth EMA 
wr 


Time Series Forecast 


TYPPRICE Typical Price 
ULTOSC Ultimate Oscillator 


Variance 


WCLPRICE Weighted Close Price 
WILLR Williams' %R 


Weighted Moving Average 


# 5-1 中 提供 了 Talib 相关 函数 ， 接 下 来 会 对 部 分 内 容 进 行 介绍 。 


a 


.2.1 Talib 常用 函数 介绍 


1 .平均 趋向 指数 ADX 和 累积 派发 线 AD 

AD 累积 派发 线 ) 是 一 种 平衡 交易 量 指标 ， 以 当日 的 收盘 价位 来 估算 成 交流 量 ， 用 于 估 
算 一 段 时 间 内 该 证 券 累积 的 资金 流量 。 它 通常 与 ADX 一 起 使 用 ， 利 用 多 空 趋向 的 变化 差 离 
与 总 和 判定 平均 趋势 ，ADX 数值 不 能 显示 趋势 的 发 展 方向 。 但 是 如 果 趋 势 存在 ，ADX 可 以 
衡量 趋势 的 强度 。 

ADX 与 AD 的 函数 如 下 : 


def ADX(high, low, close, *args, **kwargs): 
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def AD(high, low, close, volume): 


可 以 看 到 ，ADX 函数 在 常规 的 high, low, close 参数 后 面 还 有 更 多 的 参数 可 以 输入 ， 这 
和 5.1 节 的 MACD 类 似 ， 可 以 对 不 同 的 时 间 函 数 进行 设 定 。 这 里 默认 的 timeperiod 为 14。 

AD 为 资金 趋势 函数 ， 向 上 的 AD 表明 买方 占 优势 ， 而 向 下 的 A/D 表明 卖方 占 优势 。 
AD 与 价格 的 背离 可 视 为 买卖 信号 ， 即 底 背 离 考 虑 买 入 ， 顶 背离 考虑 卖 出 。 


【程序 5-7】 


from gm.api import * 
import talib 
import numpy as np 


import matplotlib.pyplot as plt 
set_token ("9e02621le7£cf£850731def2e8a9del fdbd5b21ad6") 


data = history _n(symbol="SZSE.002310", frequency="1d",count=100,end_time="2017- 
Jas 

31", fields="high, low, close, open, volume", fill_missing="last",adjust=ADJUST_PREV 
,df-True) 


close - np.asarray (data["close"].values) 
open = np.asarray (data["open"].values) 
high = np.asarray(data["high"] .values) 
low = np.asarray (data["low"].values) 


volume = np.asarray(data["volume"] .values) .astype (np.double) 


adx = talib.ADx (high, low, close) 
adx = np.nan to num(adx) 
adx = adx/np.max (adx) 


ad = talib.AD (high, low, close, volume) 
ad = np.nan to num(ad) 

ad = ad/np.max(ad) + 20 

plt.plot (ad, "r",adx,"b") 

plt.show() 


【程序 5-7】 中 ， 首 先 获取 了 对 应 股票 的 数据 集 ， 之 后 使 用 NumPy 库 包 将 其 提取 ， 对 提 
取 后 的 数据 进行 命名 ， 输 入 到 ADX 与 AD 函数 中 进行 计算 。 最 终 显 示 结 果 如 图 5-6 所 示 。 
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图 5-6 ADX 与 AD 曲线 结果 

由 于 周期 的 选择 和 对 应 标的 不 同 ， 图 像 的 展示 效果 也 不 同 ， 请 读者 自行 演示 。 

2. ADOSC ( Chaikin A/D Oscillator Chaikin ) 震荡 指标 

ADOSC 将 资金 流动 情况 与 价格 行为 相对 比 ， 检 测 市 场 中 资金 流入 和 流出 的 情况 。 其 函 
数 如 下 : 
def ADOSC (high, low, close, volume, *args, **kwargs): 

3. ATR ( Average True Range , 平均 真 实 波幅 ) 


ATR 主要 用 来 衡量 价格 的 波动 。 因 此 ， 这 一 技术 指标 并 不 能 直接 反映 价格 走向 及 其 趋势 
的 稳定 性 ， 而 只 是 表明 价格 波动 的 程度 。 


def ADOSC(high, low, close, volume, *args, **kwargs): 
4. OBV ( On Balance Volume , BE&SSR ) 


OBV 通过 统计 成 交 量 变动 的 趋势 推测 股价 趋势 。 它 以 某 日 为 基期 ， 逐 日 累计 每 日 上 市 股 
票 总 成 交 量 ， 若 隔日 指数 或 股票 上 涨 ， 则 基期 OBV 加 上 本 日 成 交 量 为 本 日 OBV。 若 隔日 指 
数 或 股票 下 跌 ， 则 基期 OBV 减 去 本 日 成 交 量 为 本 日 OBV。 函 数 如 下 : 


def OBV(real, volume): 


以 上 只 是 对 部 分 常用 的 函数 进行 说 明 ， 其 他 相关 函数 请 读者 自行 演示 。 


5.2.2 Talib 图 像 形态 识别 
除了 常用 的 函数 之 外 ，Talib 还 提供 了 蜡烛 图 KRED 的 图 像 识别 方法 。 
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1. 函数 名 : CDL2CROWS 


名 称 : Two Crows (AR S48) 

简介 : 三 日 K 线 模式 ， 第 一 天 长 阳 ， 第 二 天 高 开 收 阴 ， 第 三 天 再 次 高 开 继续 收 阴 ， 收 盘 
比 前 一 日 收盘 价 低 ， 预 示 股 价 下 跌 。 

函数 : def CDL2CROWS(open, high, low, close) 


2. 函数 名 : CDL3BLACKCROWS 


名 称 : Three Black Crows (三 只 乌鸦 ) 

简介 : 三 日 K 线 模式 ， 连 续 三 根 阴 线 ， 每 日 收盘 价 都 下 跌 且 接近 最 低 价 ， 每 日 开盘 价 都 
EER K 线 实体 内 ， 预 示 股 价 下 跌 。 

函数 : def CD3BLACKCROWS(open, high, low, close) 

3. 函数 名 : CDL3INSIDE 

名 称 : Three Inside Up/Down (三 内 部 上 涨 和 下 跌 ) 

简介 : 三 日 K 线 模式 ， 母 子 信号 + 长 K 线 ， 以 三 内 部 上 涨 为 例 ，K 线 为 阴阳 阳 ， 第 三 天 
收盘 价 高 于 第 一 天 开盘 价 ， 第 二 天 K 线 在 第 一 天 K 线 内 部 ， 预 示 着 股价 上 涨 。 

函数 : def CDL3INSIDE(open, high, low, close) 


4. 函数 名 : CDL3LINESTRIKE 
名 称 : Three-Line Strike (三 线 打击 ) 
简介 : 四 日 K 线 模式 ， 前 三 根 阳线 ， 每 日 收盘 价 都 比 前 一 日 高 ， 开 盘 价 在 前 一 日 实体 


内 ， 第 四 日 市 场 高 开 ， 收 盘 价 低 于 第 一 日 开盘 价 ， 预 示 股 价 下 跌 。 
函数 : def CDL3LINESTRIKE(open, high, low, close) 


5. 函数 名 : CDLSOUTSIDE 


名 称 : Three Outside Up/Down (三 外 部 上 涨 和 下 跌 ) 

简介 : 三 日 K 线 模式 ， 与 三 内 部 上 涨 和 下 跌 类 似 ，K 线 为 阴阳 阳 ， 但 第 一 日 与 第 二 日 的 
K 线形 态 相 反 ， 以 三 外 部 上 涨 为 例 ， 第 一 日 K 线 在 第 二 日 K 线 内 部 ， 预 示 着 股价 上 涨 。 

函数 : def CDL3OUTSIDE(open, high, low, close) 


6. 函数 名 : CDL3STARSINSOUTH 


名 称 : Three Stars In The South (南方 三 星 ) 

简介 : 三 日 K 线 模式 ， 与 大 敌 当 前 相反 ， 三 日 K 线 丝 阴 ， 第 一 日 有 长 下 影 线 ， 第 二 日 与 
第 一 日 类 似 ，K 线 整 体 小 于 第 一 日 ， 第 三 日 无 下 影 线 实体 信号 ， 成 交 价格 都 在 第 一 日 振幅 之 
内 ， 预 示 下 跌 趋势 反 转 ， 股 价 上 升 。 

函数 : def CDL3STARSINSOUTH(open, high, low, close) 
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7. 函数 名 : CDL3WHITESOLDIERS 


名 称 : Three Advancing White Soldiers (三 个 白 兵 ) 

简介 : 三 日 K 线 模式 ， 三 日 K 线 丝 阳 ， 每 日 收盘 价 变 高 且 接 近 最 高 价 ， 开 盘 价 在 前 一 日 
实体 上 半 部 ， 预 示 股价 上 升 。 

函数 : def CDL3WHITESOLDIERS(open, high, low, close) 


8. 函数 名 : CDLABANDONEDBABY 


名 称 : Abandoned Baby (FE) 

简介 : 三 日 K 线 模式 ， 第 二 日 价格 跳 空 且 收 十 字 星 〈 开 盘 价 与 收盘 价 接近 ， 最 高 价 与 最 
低 价 相差 不 大 ) ， 预 示 趋 势 反 转 ， 发 生 在 顶部 下 跌 ， 底 部 上 涨 。 

函数 : def CDLABANDONEDBABY(open, high, low, close, penetration=0) 


9. 函数 名 : CDLADVANCEBLOCK 


名 称 : Advance Block (大 敌 当前 ) 

简介 : 三 日 K 线 模式 ， 三 日 都 收 阳 ， 每 日 收盘 价 都 比 前 一 日 高 ， 开 盘 价 都 在 前 一 日 实体 
以 内 ， 实 体 变 短 ， 上 影 线 变 长 。 

函数 : def CDLADVANCEBLOCK(open, high, low, close) 

10. 函数 名 : CDLBELTHOLD 


名 称 : Belt-Hold〔 捉 腰带 线 ) 

简介 : 两 日 K 线 模式 ， 下 跌 趋 势 中 ， 第 一 日 阴线 ， 第 二 日 开盘 价 为 最 低 价 ， 阳 线 ， 收 盘 
价 接近 最 高 价 ， 预 示 价格 上 涨 。 

函数 : def CDLBELTHOLD(open, high, low, close) 


11. 函数 名 : COLBREAKAWAY 


名 称 : Breakaway (hie) 

简介 : 五 日 K 线 模式 ， 以 看 涨 脱离 为 例 ， 下 跌 趋势 中 ， 第 一 日 长 阴线 ， 第 二 日 跳 空 阴 
线 ， 延 续 趋势 开始 震荡 ， 第 五 日 长 阳线 ， 收 盘 价 在 第 一 天 收盘 价 与 第 二 天 开盘 价 之 间 ， 预 示 
价格 上 涨 。 

函数 : def CDLBREAKAWAY(open, high, low, close) 

12. 函数 名 : CDLCLOSINGMARUBOZU 


名 称 : Closing Marubozu (收盘 缺 影 线 ) 

简介 : 一 日 K 线 模式 ， 以 阳线 为 例 ， 最 低 价 低 于 开盘 价 ， 收 盘 价 等 于 最 高 价 ， 预 示 着 趋 
势 持续 。 

函数 : def CDLCLOSINGMARUBOZU(open, high, low, close) 
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13. 函数 名 : CDLCONCEALBABYSWALL 


名 称 : Concealing Baby Swallow GRBA) 

简介 : 四 日 K 线 模式 ， 下 跌 趋 势 中 ， 前 两 日 阴线 无 影 线 ， 第 三 日 开盘 、 收 盘 价 皆 低 于 第 
二 日 ， 且 第 三 日 呈现 倒 锤 头 ， 第 四 日 开盘 价 高 于 前 一 日 最 高 价 ， 收 盘 价 低 于 前 一 日 最 低 价 ， 
预示 着 底部 反 转 。 

函数 : def CDLCONCEALBABYSWALL(open, high, low, close) 


14. 函数 名 : CDLCOUNTERATTACK 


名 称 : Counterattack (反击 线 ) 
简介 : 二 日 K 线 模式 ， 与 分 离线 类 似 。 
函数 : def CDLCOUNTERATTACK(open, high, low, close) 


15. 函数 名 : CDLDARKCLOUDCOVER 


名 称 : Dark Cloud Cover (乌云 压顶) 

简介 : 二 日 K 线 模式 ， 第 一 日 为 长 阳 ， 第 二 日 开盘 价 高 于 前 一 日 最 高 价 ， 收 盘 价 处 于 前 
一 日 实体 中 部 以 下 ， 预 示 着 股价 下 跌 。 

函数 : def CDLDARKCLOUDCOVER(open, high, low, close, penetration=0) 


16. 函数 名 : CDLDOJI 

名 称 : Doji (十 字 ) 

简介 : 一 日 K 线 模式 ， 开 盘 价 与 收盘 价 基本 相同 。 
函数 : def CDLDOJI(open, high, low, close) 

17. 函数 名 : CDLDOJISTAR 


名 称 : Doji Star (FFÆ) 

简介 : 一 日 K 线 模式 ， 开 盘 价 与 收盘 价 基本 相同 ， 上 下 影 线 不 会 很 长 ， 预 示 着 当前 趋势 
反 转 。 

函数 : def CDLDOJISTAR(open, high, low, close) 


18. 函数 名 : COLDRAGONFLYDOJI 


名 称 : Dragonfly Doji WEH- F/T 形 十 字 ) 

简介 : 一 日 K 线 模式 ， 开 盘 后 价格 一 路 走低 ， 之 后 收复 ， 收 盘 价 与 开盘 价 相 同 ， 预 示 趋 
势 反 转 。 

函数 : def CDLDRAGONFLYDOJI(open, high, low, close) 


19. 函数 名 : CDLENGULFING 
名 称 : Engulfing Pattern (ARER) 
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简介 : 两 日 K 线 模式 ， 分 多 头 吞噬 和 空头 吞噬 ， 以 多 头 吞 鸣 为 例 ， 第 一 日 为 阴线 ， 第 二 
日 为 阳线 ， 第 一 日 的 开盘 价 和 收盘 价 在 第 二 日 开盘 价 和 收盘 价 之 内 ， 但 不 能 完全 相同 。 
函数 : def CDLENGULFING(open, high, low, close) 


20. 函数 名 : CDLEVENINGDOJISTAR 


名 称 : Evening Doji Star. CT £D 
简介 : 三 日 K 线 模式 ， 基 本 模式 为 蓝 星 ， 第 二 日 收盘 价 和 开盘 价 相 同 ， 预 示 顶 部 反 转 。 
函数 : def CDLEVENINGDOJISTAR(open, high, low, close, penetration=0) 


21. 函数 名 : CDLEVENINGSTAR 
名 称 : Evening Star (#454) 
简介 : 三 日 K 线 模式 ， 与 晨星 相反 ， 上 升 趋势 中 ， 第 一 日 为 阳线 ， 第 二 日 价格 振幅 较 


小 ， 第 三 日 为 阴线 ， 预 示 项 部 反 转 。 
函数 : def CDLEVENINGSTAR(open, high, low, close, penetration=0) 


22. 函数 名 : CDLGAPSIDESIDEWHITE 


名 称 : Up/Down-gap side-by-side white lines (向 上 /下 跳 空 并 列 阳线 ) 

简介 : 二 日 K 线 模式 ， 上 升 趋势 向 上 跳 空 ， 下 跌 趋 势 向 下 跳 空 ， 第 一 日 与 第 二 日 有 相同 
的 开盘 价 ， 实 体 长 度 差不多 ， 则 趋势 持续 。 

函数 : def CDLGAPSIDESIDEWHITE(open, high, low, close) 


23. 函数 名 : CDOLGRAVESTONEDOJI 


名 称 : Gravestone Doji (墓碑 十 字 / 倒 T 十 字 ) 
简介 : 一 日 K 线 模式 ， 开 盘 价 与 收盘 价 相 同 ， 上 影 线 长 ， 无 下 影 线 ， 预 示 底 部 反 转 。 
函数 : def CDLGRAVESTONEDOJI(open, high, low, close) 


24. 函数 名 : COLHAMMER 


名 称 : Hammer (EK) 

简介 : 一 日 K 线 模式 ， 实 体 较 短 ， 无 上 影 线 ， 下 影 线 大 于 实体 长 度 两 倍 ， 处 于 下 跌 趋 势 
底部 ， 预 示 反 转 。 

函数 : def CDLHAMMER(open, high, low, close) 


25. 函数 名 : CDLHANGINGMAN 


名 称 : Hanging Man (上 吊 线 ) 
简介 : 一 日 K 线 模式 ， 形 状 与 锤子 类 似 ， 处 于 上 升 趋势 的 项 部， 预示 着 趋势 反 转 。 
函数 : def CDLHANGINGMAN(open, high, low, close) 
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26. 函数 名 : CDLHARAMI 


名 称 : Harami Pattern (母子 线 ) 

简介 : 二 日 K 线 模式 ， 分 多 头 母 子 与 空头 母子 ， 两 者 相反 ， 以 多 头 母子 为 例 ， 在 下 跌 趋 
势 中 ， 第 一 日 K 线 长 阴 ， 第 二 日 开盘 价 和 收盘 价 在 第 一 日 价格 振幅 之 内 ， 为 阳线 ， 预 示 趋 势 
反 转 ， 股 价 上 升 。 

函数 : def CDLHARAMI(open, high, low, close) 


27. 函数 名 : CDLHARAMICROSS 


名 称 : Harami Cross Patten (十 字 孕 线 ) 

简介 : 二 日 K 线 模式 ， 与 母子 线 类 似 ， 若 第 二 日 K 线 是 十 字 线 ， 便 称 为 十 字 孕 线 ， 预 示 
着 趋势 反 转 。 

函数 : def CDLHARAMICROSS(open, high, low, close) 


28. 函数 名 : CDLHIGHWAVE 


名 称 : High-Wave Candle〈 风 高 浪 大 线 ) 
简介 : 三 日 K 线 模式 ， 具 有 极 长 的 上 /下 影 线 与 短 的 实体 ， 预 示 着 趋势 反 转 。 
函数 : def CDLHIGHWAVE(open, high, low, close) 


29. 函数 名 : CDLHIKKAKE 
名 称 : Hikkake Pattern. CABE) 
简介 : 三 日 K 线 模式 ， 与 母子 线 类 似 ， 第 二 日 价格 在 前 一 日 实体 范围 内 ， 第 三 日 收盘 价 
高 于 前 两 日 ， 反 转 失败 ， 趋 势 继 续 。 
函数 ，def CDLHIKKAKE(open, high, low, close) 


30. 函数 名 : CDLHIKKAKEMOD 


名 称 : Modified Hikkake Pattern 修正 陷阱 》 

简介 : 三 日 K 线 模式 ， 与 陷阱 类 似 ， 上 升 趋势 中 ， 第 三 日 跳 空 高 开 ， 下 跌 趋 势 中 ， 第 三 
日 跳 空 低 开 ， 反 转 失败 ， 趋 势 继续 。 

函数 : def CDLHIKKAKEMOD(open, high, low, close) 


31. 函数 名 : CDLHOMINGPIGEON 


名 称 : Homing Pigeon (AS) 

简介 : 二 日 K 线 模式 ， 与 母子 线 类 似 ， 不 同 的 是 二 日 K 线 颜 色相 同 ， 第 二 日 最 高 价 、 最 
低 价 都 在 第 一 日 实体 之 内 ， 预 示 着 趋势 反 转 。 

函数 : def CDLHOMINGPIGEON(open, high, low, close) 
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32. 函数 名 : CDLIDENTICAL3CROWS 


名 称 : Identical Three Crows (三 胞 胎 乌 鸦 ) 
简介 : 三 日 K 线 模式 ， 上 涨 趋势 中 ， 三 日 都 为 阴线 ， 长 度 大致 相 等 ， 每 日 开盘 价 等 于 前 


一 日 收盘 价 ， 收 盘 价 接近 当日 最 低 价 ， 预 示 价 格 下 跌 。 


函数 : def CDLIDENTICAL3CROWS(open, high, low, close) 
33. 函数 名 : CDLINNECK 


名 称 : In-Neck Pattern 〈 颈 内 线 ) 
简介 : 二 日 K 线 模式 ， 下 跌 趋 势 中 ， 第 一 日 为 长 阴线 ， 第 二 日 开盘 价 较 低 ， 收 盘 价 略 高 


于 第 一 日 收盘 价 ， 阳 线 ， 实 体 较 短 ， 预 示 着 下 跌 继 续 。 


函数 : def CDLINNECK (open, high, low, close) 
34. 函数 名 : CDLINVERTEDHAMMER 


名 称 : Inverted Hammer ( 倒 锤 头 ) 
简介 : 一 日 K 线 模式 ， 上 影 线 较 长 ， 长 度 为 实体 的 2 倍 以 上 ， 无 下 影 线 ， 在 下 跌 趋 势 底 


， 预 示 着 趋势 反 转 。 


函数 : def CDLINVERTEDHAMMER(open, high, low, close) 
35. 函数 名 : CDLKICKING 


名 称 : Kicking( 反 冲 形态 ) 
简介 : 二 日 K 线 模式 ， 与 分 离线 类 似 ， 两 日 K 线 为 秃 线 ， 颜 色相 反 ， 存 在 跳 空 缺口 。 
函数 : def CDLKICKING(open, high, low, close) 


36. 函数 名 : CDLKICKINGBYLENGTH 

名 称 : Kicking - bull/bear determined by the longer marubozu (由 较 长 缺 影 线 决 定 的 反 冲 形 
简介 : 二 日 K 线 模式 ， 与 反 冲 形态 类 似 ， 较 长 缺 影 线 决定 价格 的 涨 跌 。 

函数 : def CDLKICKINGBYLENGTH(open, high, low, close) 

37. 函数 名 : CDLSTALLEDPATTERN 


名 称 : Stalled Pattern (FEA) 
简介 : 三 日 K 线 模式 ， 上 涨 趋势 中 ， 第 二 日 为 长 阳线 ， 第 三 日 开盘 于 前 一 日 收盘 价 附 


， 短 阳线 ， 预 示 着 上 涨 结束 。 


函数 : def CDLSTALLEDPATTERN(open, high, low, close) 
38. 函数 名 : CDLSTICKSANDWICH 
名 称 : Stick Sandwich (条 形 三 明治 ) 
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简介 : =H K 线 模式 ， 第 一 日 为 长 阴线 ， 第 二 日 为 阳线 ， 开 盘 价 高 于 前 一 日 收盘 价 ， 第 


三 日 开盘 价 高 于 前 两 日 最 高 价 ， 收 盘 价 与 第 一 日 收盘 价 相同 。 


函数 : def CDLSTICKSANDWICH(open, high, low, close) 


39. 函数 名 : CDLTAKURI 

名 称 : Takuri (Dragonfly Doji with very long lower shadow， 探 水 竿 ) 
简介 : 一 日 K 线 模式 ， 大 致 与 晴 蜂 十 字 相 同 ， 下 影 线 长 度 长 。 
函数 : def CDLTAKURI(open, high, low, close) 

40. 函数 名 : CDLTASUKIGAP 


名 称 : Tasuki Gap〔〈 跳 空 并 列 阴 阳线 ) 
简介 : 三 日 线 模式 ， 分 上 涨 和 下 跌 ， 以 上 升 为 例 ， 前 两 日 为 阳线 ， 第 二 日 跳 空 ， 第 三 


日 为 阴线 ， 收 盘 价 于 缺口 中 ， 上 升 趋势 持续 。 
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函数 : def CDLTASUKIGAP(open, high, low, close) 


41. 函数 名 : CDLTHRUSTING 


名 称 : Thrusting Pattern (插入 ) 
简介 : 二 日 K 线 模式 ， 与 颈 上 线 类 似 ， 下 跌 趋 势 中 ， 第 一 日 为 长 阴线 ， 第 二 日 开盘 价 跳 


， 收 盘 价 略 低 于 前 一 日 实体 中 部 ， 与 颈 上 线 相 比 实 体 较 长 ， 预 示 着 趋势 持续 。 


函数 : def CDLTHRUSTING(open, high, low, close) 
42. 函数 名 : CDLTRISTAR 


名 称 : Tristar Patten (ZÆ) 

简介 : 三 日 K 线 模式 ， 由 三 个 十 字 组 成 ， 第 二 日 的 十 字 必 须 高 于 或 者 低 于 第 一 日 和 第 三 
预示 着 反 转 。 

函数 : def CDLTRISTAR(open. high, low, close) 


43. 函数 名 : CDLUNIQUESRIVER 


名 称 : Unique 3 River (奇特 三 河床 ) 
简介 : 三 日 K 线 模式 ， 下 跌 趋 势 中 ， 第 一 日 为 长 阴线 ， 第 二 日 为 锤 头 ， 最 低 价 创新 低 ， 


第 三 


日 开盘 价 低 于 第 二 日 收盘 价 ， 收 阳线 ， 收 盘 价 不 高 于 第 二 日 收盘 价 ， 预 示 着 反 转 ， 第 二 


日 下 影 线 越 长 可 能 性 越 大 。 


第 三 


82 


函数 : def CDLUNIQUE3RIVER(open, high, low, close) 
44. 函数 名 : CDLUPSIDEGAP2CROWS 


名 称 : Upside Gap Two Crows (向 上 跳 空 的 两 只 乌鸦 ) 
简介 : 三 日 K 线 模式 ， 第 一 日 为 阳线 ， 第 二 日 跳 空 以 高 于 第 一 日 最 高 价 开 盘 ， 收 阴线 ， 
日 开盘 价 高 于 第 二 日 ， 收 阴线 ， 与 第 一 日 比 仍 有 缺口 。 


函数 : def CDLUPSIDEGAP2CROWS(open, high, low, close) 


45. 函数 名 : CDLXSIDEGAP3METHODS 


名 称 : Upside/Downside Gap Three Methods (上 升 /下 降 跳 空 三 法 ) 

简介 : 五 日 K 线 模式 ， 以 上 升 跳 空 三 法 为 例 ， 上 涨 趋势 中 ， 第 一 日 为 长 阳线 ， 第 二 日 为 
短 阳 线 ， 第 三 日 为 跳 空 阳线 ， 第 四 日 为 阴线 ， 开 盘 价 与 收盘 价 于 前 两 日 实体 内 ， 第 五 日 为 长 
阳线 ， 收 盘 价 高 于 第 一 日 收盘 价 ， 预 示 股 价 上 升 。 

函数 : def C DLXSIDEGAP3METHODS(open, high, low, close) 

下 面 对 函 数 做 一 个 演示 。 

[程序 5-8] 


from gm.api import * 
import talib 
import numpy as np 


import matplotlib.pyplot as plt 
set_token ("9e02621e7fcf850731def2e8a9delfdbd5b21ade") 


data = history _n(symbol="SZSE.399006", frequency="1d",count=100,end_time="2018- 
iu 

31",fields-"high,low,close,open,volume",fill missing-"last",adjust-ADJUST PREV 
,df-True) 


close = np.asarray (data["close"].values) 
open = np.asarray (data["open"].values) 
high = np.asarray (data["high"].values) 
low = np.asarray (data["low"].values) 


volume = np.asarray (data["volume"].values).astype (np.double) 


cdl2crows = talib.CDL2CROWS (high, low, close, volume) 
print (cdl2crows) 

【程序 5-8】 展 示 了 对 标的 进行 2 只 乌鸦 图 形 的 查找 。 当 确定 结果 后 ， 会 输出 100， 而 当 
不 符合 函数 确定 的 样式 图 形 时 ， 会 以 0 输出 显示 。 

更 多 样式 的 识别 还 请 读者 参考 Talib 官方 文档 。 


实战 : Talib 金融 工具 回 测 实 战 


Talib 的 用 途 在 金融 项 目 中 准确 地 把 握 行 情 ， 认 清 所 处 的 趋势 位 置 。 通 过 结合 掘 金 量 
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化 库 包 可 以 直接 对 所 产生 的 策略 进行 回 测 检验 ， 从 而 找 出 策略 方案 与 回 测 的 真实 性 与 差异 
性 如 何 。 


5.3.1 根据 MACD 变化 回 测 2017 年 盈利 情况 

MACD 是 股市 中 最 常用 的 指标 ， 一 般 认为 当 dif 值 由 负 变 为 正 时 为 购买 金融 产品 的 时 
机 ， 而 dif 值 由 正 变 为 负 时 为 卖 出 时 机 。 通 过 Talib 的 MACD 结合 量化 掘 金 类 库 可 以 达到 择 
时 对 股票 进行 购买 并 计算 收益 的 目的 。 

在 前 面 介绍 掘 金 量 化 库 包 的 时 候 ， 通 过 设 定 不 同 的 回 测 主 程序 可 以 对 选 定 的 内 容 进行 回 
测 。 

1. 进行 程序 的 初始 化 


def init (context): 
context.symbol = "SZSE.300296" 


context.frequency = "1d" 

context.fields = "open,high,low,close" 

context.volume = 200 
Schedule(schedule func-algo,date rule-"1d",time rule-"09:35:00") 


init 函数 是 回 测 程序 的 初始 化 程序 ， 在 这 里 进行 数据 的 初始 化 ， 从 本 代码 段 中 可 以 看 
到 ， 这 里 通过 context 初始 化 了 目标 代码 、 时 间 周 期 以 及 所 需要 读 取 的 字典 。 最 后 通过 
schedule 函数 对 回 测 的 执行 规则 做 了 设 定 ， 选 择 了 回 测算 法 以 及 时 间 规 则 。 

再 提醒 一 点 ， 在 初始 化 过 程 中 ， 可 以 添加 一 些 额外 的 程序 进行 初始 化 工作 。 例 如 ， 将 机 
器 学 习 中 的 回归 分 析 、 深 度 学 习 中 的 模型 检测 填 入 init 函数 中 进行 预 处 理 。 


2. 主 算法 的 设 定 
回 测 策略 的 关键 是 算法 的 设 定 。 根 据 不 同 的 金融 产品 对 象 设置 不 同 的 分 析 算 法 从 而 决定 
本 算法 中 ，MACD 买卖 点 的 核心 就 是 获取 前 一 日 的 MACD 值 ， 当 其 大 于 0 时 候 进行 金 
融 产 品 的 买 入 ， 而 当 MACD 小 于 0 时 进行 卖 出 。 
想 要 计算 MACD 值 ， 首 先 就 要 获取 给 定时 间 段 的 值 ， 在 这 里 使 用 量化 掘 金库 包 中 的 
history_n 函数 获取 前 一 段 时 间 count 周期 内 的 数据 。 


now = context.now 


last day = get previous trading date ("SZSE",now) 

data = 

history n(symbol-context.symbol,frequency-context.frequency,count-35,end time- 
now, 

fields-context.fields,fill missing-"last",adjust-ADJUST PREV,df-True) 


代码 段 中 ， 首 先 通过 contextnow 函数 获取 回 测 阶段 当天 的 数值 ， 通 过 
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get previous trading date 函数 获取 相同 市 场 上 一 个 交易 日 的 日 期 。 
history_n 函数 获取 截至 当前 日 期 上 一 个 交易 日 的 所 有 周期 数据 ， 并 以 pandas 格式 返回 。 


open = np.asarray((data["open"].values)) 


high = np.asarray((data["high"].values)) 
low = np.asarray ((data["low"] .values) ) 


close = np.asarray ((data["close"] .values) ) 

获取 的 数据 需要 通过 NumPy 库 包 进行 数据 处 理 ， 这 里 通过 调用 关键 字 的 方法 获取 各 个 
值 的 序列 ， 为 下 一 步 的 计算 做 准备 。 

MACD 值 的 计算 就 显得 较为 简单 ， 直 接 调 用 Talib 库 包 中 的 函数 值 计 算 即 可 。 


macd, , = talib.MACD(close) 


macd = macd[-1] 


°° Hh MACD 返回 的 是 3 个 数值 序列 ， 根 据 需 要 只 要 第 一 个 即 可 。 而 macd[-1] 指 的 是 区 
取 当前 序列 最 后 一 个 数值 ， 即 根据 上 一 个 交易 日 获取 的 MACD 值 进行 计算 。 


判断 MACD 值 的 情况 ， 调 用 气 金 量化 库 包 进行 买卖 ， 其 方法 如 下 : 


if macd > 0: 

order_volume (symbol=context.symbol, volume=context.volume, 
side=PositionSide Long, 

order_type=OrderType Market, position_effect=PositionEffect_Open) 
print ("KA") 

elif macd < 0: 

order_volume (symbol=context.symbol, volume=context.volume, 
side=PositionSide Short, 

order type-OrderType Market, position effect-PositionEffect Close) 
print (" 卖 出 ") 


3. 主 方法 的 设 定 
主 方法 中 主要 对 账户 信息 、Python 代码 的 名 称 、 执 行 的 类 型 、 起 止 时 间 、 复 权 方法 进行 
设 定 。 代 码 段 如 下 : 


if _name  -- " main ": 
run( 

strategy id-'*tx: xxn, 
filename-'MACD 不 同时 间 .py' , 
mode-MODE BACKTEST, 
token-'9e02621e7fcf850731def2e8a9delfdbd5b21ad6', 
backtest start time-'2017-01-01 09:00:00', 
backtest end time-'2017-12-31 15:00:00', 
backtest initial cash-20000, 
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backtest_adjust=ADJUST_PREV 
) 


在 主 方法 中 还 对 起 始 金额 做 了 设 定 ， 这 里 为 了 简便 ， 设 置 起 始 金额 为 2 万 元 。 
【程序 5-9】 


from gm.api import * 
import numpy as np 
import talib 


def init(context): 


context.symbol = "SZSE.300296" 
context.frequency - "1d" 
context.fields = "open,high,low,close" 
context.volume = 200 
schedule (schedule func-algo,date rule="1d",time rule-"09:35:00") 


def algo(context): 


now — context.now 

last day - get previous trading date("SZSE",now) 
data = history n(symbol-context.symbol,frequency-context.frequency,count-35, 
end time-now,fields-context.fields,fill missing-"last",adjust-ADJUST PREV,df-T 
rue) 


open = np.asarray((data["open"].values)) 
high = np.asarray((data["high"].values)) 
low = np.asarray((data["low"] .values) ) 
close = np.asarray((data["close"].values)) 
macd, , = talib.MACD(close) 
macd = macd[-1] 


if macd > 0: 
order volume (symbol=context.symbol, volume-context.volume, 
side=PositionSide Long, 
order_type=OrderType Market, 
position_effect=PositionEffect_Open) 
print ("ZA") 
elif macd < 0: 
print ("Seti") 
order volume (symbol=context.symbol, volume=context.volume, 
side=PositionSide Short, 
order type=OrderType Market, 
position effect=PositionEffect Close) 
if | name == " main z 
run ( 
strategy id-' xxx 


filename-'MACD 不 同时 间 .py'， 
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mode-MODE BACKTEST, 
token-'9e02621e7fcf850731def2e8a9delfdbd5b21ad6', 
backtest start time-'2017-01-01 09:00:00', 
backtest end time-'2017-12-31 15:00:00', 

backtest initial cash-20000, 

backtest adjust-ADJUST PREV 


y 
【程序 5-9】 完 整地 展示 了 策略 的 例子 ， 结 合 掘 金 量 化 客户 端 可 以 完整 地 看 到 结果 ， 如 
图 5-7 所 示 。 
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从 总 览 上 可 以 看 到 ， 使 用 此 MACD 简易 策略 ， 完 整 的 年 化 收入 为 15.05%， 而 最 大 回 测 
约 为 14%， 夏 普 比率 为 0.65。 

这 样 看 来 ， 这 个 策略 可 以 使 用 ， 但 是 运营 的 收益 率 不 太 理想 。 细 心 的 读者 可 能 还 注意 
到 ， 这 里 不 包括 设置 手续 费 和 滑 点 率 这 些 更 细节 的 东西 。 

从 图 5-8 对 比 标的 的 涨幅 可 以 看 到 ， 对 于 使 用 MACD 进行 的 买卖 策略 实际 上 不 能 达到 既 
有 标的 的 年 化 涨幅 ， 这 点 是 很 可 惜 的 。 
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图 5-8 MACD 买 入 与 股票 涨幅 对 比 
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4. 更 改 主 算法 

既然 使 用 MACD 算法 取得 的 回 测 成 绩 不 满意 ， 那 么 就 需要 对 既定 的 策略 进行 检讨 。 

回 测 策略 的 核心 是 算法 的 使 用 ， 在 回 测 代 码 中 ， 使 用 的 是 MACD 作为 买卖 判定 的 指 
标 。 除 此 之 外 ，Talib 还 有 其 他 一 些 计算 函数 用 于 帮助 回 测 的 检定 。 

RSI (相对 强 弱 指数 ) 是 通过 比较 一 段 时 期 内 的 平均 收盘 涨 数 和 平均 收盘 跌 数 来 分 析 市 
场 买 沽 盘 的 意向 和 实力 ， 从 而 做 出 未 来 市 场 的 走势 。RSI 是 在 1978 年 6 月 由 Wells Wider 创 
制 的 一 种 技术 指标 ， 它 通过 特定 时 期 内 股价 的 变动 情况 计算 市 场 买卖 力量 对 比 ， 来 判断 股票 
价格 内 部 本 质 强 弱 、 推 测 价格 未 来 的 变动 方向 。 

一 般 真 实 使 用 时 判定 当 RSI 高 于 70 时 ， 股 票 可 以 被 视 为 超 买 ， 是 卖 出 的 时 候 。 当 RSI 
低 于 30 时， 股票 可 以 被 视 为 超 卖 ， 是 买 入 的 时 候 。 核 心 代码 如 下 : 
rsi = talib.RSI (close) 


rsi = rsi[-1] 


if rsi < 30: 
order_volume (symbol=context.symbol, volume=context.volume, 
side=PositionSide Long, 

order_type=OrderType Market, 
position_effect=PositionEffect_Open) 
print ("KA") 
erit rsi > 70: 
print ("H") 
order_volume (symbol=context.symbol, volume=context.volume, 
side=PositionSide Short, 

order_type=OrderType Market, 


position_effect=PositionEffect_Close) 
通过 Talib 计算 RSI 值 ， 针 对 不 同 的 时 期 进行 买卖 交易 。 
【程序 5-10】 


from gm.api import * 

import numpy as np 

import talib 

def init(context): 
context.symbol = "SZSE.300296" 
context.frequency = "1d" 
context.fields = "open,high,low,close" 


context.volume = 200 


Schedule(schedule func-algo, date_rule="1d", time_rule="09:35:00") 
def algo(context): 
now — context.now 


last day = get previous trading date("SZSE", now) 
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data = history n(symbol-context.symbol, frequency=context .frequency, 
count=35, 
end_time=now, fields=context.fields, fill_missing="last", 


adjust=ADJUST_PREV, df=True) 


open = np.asarray((data["open"].values)) 
high = np.asarray((data["high"].values)) 
low = np.asarray((data["low"].values)) 


close = np.asarray((data["close"].values)) 


rsi = talib.RSI (close) 
rsi 


rsi[-1] 


5 30 
order_volume (symbol=context.symbol, volume-context.volume, 
side=PositionSide Long, 
order_type=OrderType Market, 
position_effect=PositionEffect_Open) 
print ("KA") 
elif rsi > 70: 
print (" 卖 出 ") 
order volume (symbol=context.symbol, volume-context.volume, 
side=PositionSide Short, 
order_type=OrderType Market, 


position_effect=PositionEffect_Close) 


if name == " main ": 
run( 

strategy id-'f53dcdca-dc23-11e7-a391-902b3463cafl', 
filename-'RSI 买卖 测定 
mode-MODE BACKTEST, 
token-'9e02621e7fcf850731def2e8a9delfdbd5b21ad6', 
backtest start time-'2017-01-01 09:00:00', 
backtest end time-'2017-12-31 15:00:00', 
backtest initial cash-20000, 
backtest adjust-ADJUST PREV 


) 
待 全 部 回 测 运行 完毕 后 ， 最 终结 果 如 图 5-9 所 示 。 


图 5-9 回 测 结果 
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可 以 看 到 ， 通 过 RSI 的 使 用 ， 回 测 结果 有 了 很 大 的 提高 ， 收 益 率 由 15.05% 上 升 到 


20.72%， 夏 普 比 率 也 上 升 到 1.36 左右 ， 如 图 5-10 所 示 。 
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图 5-10. RSI 买 入 与 股票 涨幅 对 比 
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而 与 股票 实际 涨幅 的 对 比 来 看 ， 虽 然 提高 了 MACD 的 收益 率 ， 但 是 相对 于 对 应 标的 的 
最 高 点 并 没有 完全 达到 。 因 此 ， 这 个 算法 策略 的 改变 并 不 算是 完全 成 功 。 至 于 提高 的 方法 还 


有 很 多 ， 除 了 更 改 核心 算法 外 ， 还 有 修改 RSI 判定 参数 、 设 置 买卖 的 阔 值 点 等 方 


的 读者 可 以 自行 完成 。 


5.3.2 ”股价 的 波动 范围 及 未 来 走势 判定 


法 ， 感 兴趣 


股票 未 来 走势 以 及 波动 的 判定 是 股票 市 场 中 需要 掌握 的 一 个 非常 重要 的 内 容 ， 布 林 线 指 


标 可 以 用 来 判定 股票 未 来 走势 以 及 波动 。 


布 林 线 指标 即 BOLL 指标 ， 其 英文 全 称 是 Bollinger Bands。 布 林 线 由 约翰 


造 ， 其 利用 统计 原理 求 出 股价 的 标准 差 以 及 信赖 区 间 ， 从 而 确定 股价 的 波动 范 
势 ， 利 用 波 带 显示 股价 的 安全 高 低 价位 ， 因 而 也 被 称 为 布 林 带 。 


布 林 先 生 创 


围 及 未 来 走 


其 上 下 限 范围 不 固定 ， 随 股价 的 滚动 而 变化 。 布 林 指标 和 麦克 (MIKE) 指标 一 样 属于 
路 径 指标 ， 股 价 波动 在 上 限 和 下 限 的 区 间 之 内 ， 这 条 带 状 区 的 宽窄 随 着 股价 波动 幅度 的 大 小 
而 变化 ， 股 价 涨 跌幅 度 加 大 时 ， 带 状 区 变 宽 ， 涨 跌幅 度 狭小 盘整 时 ， 带 状 区 则 变 罕 。 


【程序 5-11】 


from gm.api import * 

import numpy as np 

import talib 

import matplotlib.pyplot as plt 


set token ("9e02621e7fcf850731def2e8a9delfdbd5b21ade6") 
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symbol = 'SZSE.002129' 


frequency = "3600" + "s 
end time = "2017-12-31" 


fields = "open, high, low, close, volume" 


last day = get previous trading date("SZSE",end time) 


data = history n(symbol-symbol,frequency-frequency,count-100,end time-end time, 
fields-fields,fill missing-"last",adjust-ADJUST PREV,df-True) 


open = np.asarray((data["open"].values)) 
high = np.asarray((data["high"].values)) 
low = np.asarray((data["low"].values)) 
close = np.asarray((data["close"].values)) 


volume = np.asarray((data["volume"].values)).astype (np.double) 
upperband,middleband, lowerband = talib.BBANDS (close) 


plt.plot (upperband, "r", close, "b--", lowerband, "r") 
plt.show() 


talib BBANDS 函数 是 Talib 中 计算 布 林 线 的 专用 函数 ， 其 返回 值 分 别 为 布 林 线 的 上 中 下 
轨 ， 通 过 调用 matplotlib 库 包 可 以 很 方便 地 将 结果 进行 图 像 化 展示 ， 如 图 5-11 所 示 。 


0 20 40 60 80 100 
5-11 通过 布 林 线 判断 未 来 走势 以 及 波动 


除了 基本 的 画 出 图 形 外 ， 布 林 线 还 可 以 用 于 买卖 点 的 设置 ， 当 股价 高 于 这 个 波动 区 间 
时 ， 即 突破 阻力 线 ， 说 明 股 价 虚 高 ， 执 行 卖 出 操作 。 而 股价 低 于 这 个 波动 区 间 ， 即 跌 破 支撑 
线 ， 说 明 股价 虚 低 ， 执 行 买 入 。 
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5.7. 两 种 经 典 的 轨道 突破 策略 


根据 均线 进行 价格 趋势 追踪 是 一 种 常用 的 方法 ， 通 过 比较 不 同 均线 速度 的 改变 程度 来 判 
断 买 入 与 卖 出 点 ， 根 据 其 统计 特性 从 而 形成 一 套 完整 的 交易 策略 。 
当然 除了 5.1 节 中 单纯 地 计算 不 同时 间 的 均线 外 ， 还 有 更 多 的 根据 统计 数据 做 出 的 趋势 


策略 。 


图 5-12 是 《财富 》 和 杂志 在 2005 年 评 出 的 最 佳 交 易 系 统 的 排名 情况 ， 根 据 特 定 交 易 策略 
在 不 同 的 时 期 表现 出 的 优秀 情况 ， 排 名 也 在 不 断 变化 。 


轨道 线 是 趋势 线 概念 的 延伸 ， 当 股价 沿 道 趋势 上 涨 到 某 一 价位 水 准时 会 遇 到 阻力 ， 


m 


档 至 某 


一 水 准时 价格 又 获得 支撑 ， 轨 道 线 就 在 接 高 点 的 延长 线 及 接 低 点 的 延长 线 之 间 上 下 来 回 ， 当 轨道 


线 确立 后 ， 股 价 就 可 以 非常 容易 地 找 出 高 低 价位 所 在 ， 投 资 人 可 依 此 判断 来 操作 股票 。 


Culler Currency Cot$con 1 
Combo Advantage 
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Time Trend iil 
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图 5-12 理念 交易 策略 排行 榜 


5.4.1 Dual Thrust 策略 


Culler Currency 


TrendChonnel 


TrendChonnel 


Dual Thrust 简称 DT, J& Michael Chalek 在 80 年 代 开 发 的 ， 是 海外 TOPI0 交易 系统 中 的 
一 个 ， 属 于 开盘 区 间 突 破 类 交易 系统 ， 以 今日 开盘 价 加 / 减 一 定 比例 的 昨日 振幅 确定 上 下 轨 ， 
如 图 5-13 所 示 。 日 内 突破 上 轨 时 平 空 做 多 ， 突 破 下 轨 时 平 多 做 空 。 


N 日 High 的 最 高 价 HH 一 一 


HHAC 
N 日 Close 的 最 高 价 HC 


IHC-LL 
N 日 Close 的 最 低 价 LC 


NB Low 的 最 低 价 U、 一 一 一 


Range = Max (HH-LC, HCAL) 
日 内 价格 上 轨 ， FERE +K Range 
日 内 价格 下 轨 ， 开 会 价 - Ka Range. 


Dual Thrust 


昨日 最 高 价 High —— 


Range=H-L 
日 内 价格 上 轨 ， 开盘 价 + K"Range 
日 内 价格 下 轨 : FSH - K*Range 


HL 


Open Range Break 


图 5-13 Dual Thrust 展示 
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Dual Thrust 在 形式 上 和 传统 的 区 间 突 破 类 似 。 不 同 之 处 主要 体现 在 两 方面 : 


(1) Dual Thrust 在 Range 的 设置 上 ， 针 对 不 同 的 标的 引入 前 若干 天 的 4 个 价位 ， 使 得 
一 定时 期 内 的 Range 相对 稳定 ， 可 以 适用 于 日 间 的 趋势 跟踪 。 

(2) Dual Thrust 对 不 同 的 趋势 追踪 设置 了 不 同 的 上 轨 和 下 轨 ， 这 里 主要 引入 两 个 参 
数 : Kl 和 K2。 当 K1<K2 时 ， 买 点 相对 容易 被 触发 ， 当 K1>K2 时 ， 卖 点 相对 容易 被 触发 。 

因此 ， 量 化 交易 人 员 在 使 用 该 策略 时 ， 一 方面 可 以 参考 历史 数据 测试 的 最 优 参数 ， 另 一 
方面 可 以 根据 自己 对 后 势 的 判断 ， 或 从 其 他 大 周期 的 技术 指标 入 手 ， 阶 段 性 地 动态 调整 K1 
和 K2 的 值 。 

首先 获取 数据 。 这 里 需要 注意 的 是 ， 由 于 针对 回 测 当日 的 开盘 价 进行 测算 ， 因 此 需要 以 
上 一 个 交易 日 的 历史 价格 周期 进行 收集 数据 。 


today = context.now 

last day = get previous trading date ("SZSE", today) 

data-history n(symbol-context.symbol,frequency-context.frequency,count-context 
-count,end time-today,fields-context.fields,fill missing-"last",adjust-ADJUST 
PREV, df-True) 


在 上 面 的 代码 段 中 ，context.symbol 在 init 函数 中 对 标的 进行 了 初始 化 操作 ， 可 以 看 到 ， 
对 于 每 个 参数 都 使 用 了 context 开头 的 参数 形式 ， 这 样 做 的 好 处 是 可 以 针对 不 同 的 标的 在 初始 
化 中 进行 参数 的 设置 。 最 后 以 pandas 形式 将 数据 返回 。 

下 面 是 Dual Thrust 的 核心 部 分 : 
high = np.asarray((data["high"].values)) 


low = np.asarray((data["low"].values)) 


close = np.asarray((data["close"].values)) 


hh = np.max (high) 


he = np.max (close) 
lc = np.min(close) 
ll = np.min(low) 

具体 算法 : 

COD 根据 昨日 的 收盘 计算 两 个 值 : 最 高 价 -收盘 价 和 收盘 价 - 最 低 价 。 之 后 取 这 两 个 值 较 
大 的 那个 ， 乘 以 上 值 0.7。 把 结果 称 为 触发 值 。 

(2) 在 当日 的 价格 回 测 时 间 记 录 开 盘 价 ， 然 后 在 价格 低 于 “开盘 -触发 值 ” 时 马上 卖 
空 ， 或 在 价格 超过 “开盘 价 + 触发 值 ”时 马上 买 入 。 


range = np.max([hh-hc,lc-11]) 


data now = current (symbols=context.symbo1) [0] 


data now open = data now["open"] 
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data now price = data now["price"] 


range up price = data now open + context.kl * range 
if (data now price » range up price): 
order target percent (symbol-context.symbol, percent-0.75, 
position side-PositionSide Long, order type-OrderType Market, price-0) 
context.flag = 0 
if (context.flag == context.flag check): 
order target percent (symbol-context.symbol, percent=0, 
position side-PositionSide Long, order type-OrderType Market, price-0) 
context.flag = 100 


context.flag += 1 


上 面 的 代码 段 中 ，range 根据 Dual Thrust 算法 设置 了 区 间 ， 之 后 的 range up price 对 当日 
的 区 间 价 格 进行 了 相对 计算 ， 设 置 了 阔 值 价格 。 根 据 判断 条 件 ， 当 开盘 价 大 于 阔 值 价格 时 ， 
执行 买 入 操作 ， 当 开盘 价 小 于 阔 值 价格 时 ， 执 行 卖 出 操作 。 

【程序 5-12】 
from gm.api import * 


import numpy as np 
import talib 


def init (context): 
context.symbol = "SHSE.600000" # sys.argv[l] 
context.frequency = "1d" 
context.fields = "open,high,low,close,volume" 
context.count - 25 


context.kl = 0.7 


schedule (schedule func=algo,date rule="1d",time rule-"09:30:00") 
context.flag = 100 
context.flag check = 2 # int (sys.argv[5]) 


def algo(context): 


today - context.now 
last day - get previous trading date("SZSE",today) 


data = history n(symbol-context.symbol, frequency-context.frequency, 
count-context.count, 
end time-last day, fields-context.fields, 
fill missing-"last", adjust-ADJUST PREV, df-True) 
high = np.asarray((data["high"].values)) 
low = np.asarray((data["low"].values)) 
close = np.asarray((data["close"].values)) 


hh = np.max (high) 
he np.max (close) 
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Qe np.min (close) 
ll = np.min (low) 


range = np.max([hh-hc,1c-11]) 

data now = current (symbols=context .symbol) [0] 
data now open = data now["open"] 
data now price = data now["price"] 


range up price = data now open + context.kl * range 
if (data now price » range up price): 
order target percent(symbol-context.symbol, percent-0.75, 
position side-PositionSide Long, order type-OrderType Market, price=0) 
context.flag = 0 
if (data now price < range up price): 
order target percent (symbol=context.symbol, percent=0, 
position side=PositionSide Long,order type=OrderType Market, price=0) 


mf name ==" main ": 
run( 

strategy id-'c08eed5a-00c2-11e8-9308-902b3463cafl', 
filename-'Dual Thrust.py', 
mode-MODE BACKTEST, 
token-"/d ko OR OOOOOOOOOOOOOOOOOOOOOOOOR NET, 
backtest start time-'2017-01-01 09:00:00', 
backtest end time-'2017-12-31 15:00:00', 
backtest initial cash-20000, 
backtest adjust-ADJUST PREV 


) 
最 终 回 测 的 结果 如 图 5-14 所 示 。 


I TE m m-— 1 va mem 5 
图 5-14. Dual Thrust 回 测 结果 
从 回 测 数据 图 上 可 以 看 到 ，Dual Thrust 的 回 测 结果 并 不 好 ， 从 对 开 仓 点 更 细节 的 分 析 来 
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看 〈 见 图 5-153) ， 主 要 是 其 开 仓 的 次 数 较 少 ， 而 卖 出 点 的 次 数 过 多 ， 因 此 造成 在 判定 收益 时 
过 低 而 回 测 力度 比较 大 。 


20171122 093000 


图 5-15 Dual Thrust 开 仓 点 分 析 
改进 的 方法 很 多 ， 例 如 加 入 一 些 简 单 的 交易 规则 (如 初始 止 损 、 跨 周期 的 数据 引用 等 ) 
进行 完善 。 具 体 来 讲 ， 每 次 以 30% 仓 位 开 仓 ， 日 内 突破 上 轨 且 30 分 钟 周期 的 MA5>MA10 就 
买 入 股票 ， 而 当日 跌 破 下 轨 且 30 分 钟 周期 的 MA5<MA10 就 卖 出 股票 。 


5.4.2 Dynamic Breakout II 策略 


Dynamic Breakout II 策略 是 一 种 动态 自 适 应 策略 。 所 谓 动态 自 适 应 策略 ， 指 的 是 这 种 系 
统 的 参数 会 依据 市 场 当前 的 状况 而 自行 调整 。 

传统 的 轨道 线 采 用 固定 比率 的 价格 差 值 来 计算 轨道 的 上 下 阔 值 ， 例 如 Talib 中 的 
BBANDS 函数 ， 通 过 固定 采样 区 间 标 准 差 的 计算 来 确定 轨道 的 上 下 阔 值 。 这 样 便于 计算 ， 可 
以 获得 一 个 稳定 的 计算 公式 。 但 是 采样 区 间 的 选取 是 比较 困难 的 ， 如 果 采 样 区 间 太 短 ， 那 么 
在 趋势 比较 明显 的 情况 下 会 表现 优秀 ， 信 号 对 于 入 场 和 出 场 的 展示 比较 紧密 。 但 是 采样 区 间 
太 短 会 因为 信号 过 于 敏感 而 使 其 出 现 得 较为 频繁 。 

在 趋势 不 明显 的 市 场 中 ， 采 样 区 间 设 置 较 短 会 使 得 信号 出 现 过 多 。 一 个 较 好 的 解决 方法 
是 把 采样 区 间 设 置 得 更 长 一 些 ， 使 其 信号 出 现 得 不 那么 频繁 。 但 是 对 参数 进行 调整 并 不 是 那 
么 简单 的 一 件 事 ， 最 好 的 方法 是 依据 当前 市 场 本 身 的 状况 自行 调整 参数 的 值 ， 而 不 是 使 用 固 
定 参 数值 的 方式 来 进行 设置 。 

Dynamic Breakout II 策略 就 是 采用 动态 自 适应 的 方法 ， 根 据 市 场 的 波动 作为 衡量 的 标 
注 。 在 震荡 幅度 较 大 的 市 场 中 ， 波 动 率 自然 而 然 较 大 ， 需 要 增加 采样 区 间 的 值 ， 这 样 不 容易 
反复 出 现 买 卖点 信号 ， 而 在 趋势 稳定 的 市 场 中 ， 市 场 有 较为 明显 的 走势 ， 波 动 率 会 随 之 变 
小 ， 因 此 要 减少 采样 区 间 的 值 ， 使 得 信号 的 出 现 较为 敏感 。 
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Dynamic Breakout II 策略 最 重要 的 是 波动 率 的 计算 。 这 个 波动 率 的 计算 方式 如 下 : 

(1) 计算 当日 的 标准 差 。 

(2) 计算 上 一 个 交易 日 的 标准 差 。 

(3) 根据 公式 
(todayVolatility — yesterDayVolatility) 

todayVolatility 

每 日 比较 市 场 波动 度 的 增 减 ， 如 果 市 场 波动 度 变 大 10%， 就 把 采样 区 间 的 参数 值 增加 10%。 

而 如 果 市 场 波动 度 减少 10%， 就 把 采样 区 间 的 参数 值 减少 10%。 
代码 如 下 : 

todayVolatility = np.std(close) 


yesterDayVolatility = np.std(close[:-1]) 
deltaVolatility = (todayVolatility - yesterDayVolatility) / todayVolatility 


deltaVolatility = 


lookBackDays = np.round(lookBackDays * (1 + deltaVolatility) 
lookBackDays = np.min([lookBackDays, context.ceilingAmt] ) 
lookBackDays = np.max([lookBackDays,context.floorAmt]) 

其 中 的 todayVolatility 和 yesterDayVolatility 是 当日 和 上 一 个 交易 日 的 标准 差 ， 
deltaVolatility 用 于 计算 当前 的 波动 率 ，lookBackDays 则 用 于 计算 采样 区 间 ， 根 据 不 同 波动 率 
对 其 进行 增 减 。 

context.ceilingAmt 和 context.floorAmt 是 人 为 设 定 的 采样 区 间 上 下 限 ， 根 据 公 开 的 数据 和 
已 有 回 测 ， 一 般 高 值 设置 为 60， 而 低 值 设 置 为 20 较为 合适 。 

至 于 买卖 点 的 判定 ， 当 上 一 日 的 收盘 价 在 区 间 上 轨 时 买 入 ， 而 收盘 价 低 于 区 间 下 轨 时 则 
卖 出 。 


【程序 5-13】 


from gm.api import * 
import numpy as np 
import talib 

def init(context): 


context.symbol = "SZSE.300296" 
context.frequency = "1d" 

context.fields = "open,high, low, close, volume" 
context.ceilingAmt = 60 

context.floorAmt = 20 

context.bolBandTrig = 1 


schedule (schedule _func=algo,date_rule="1d",time_rule="09:30:00" 


lookBackDays = 30 
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def algo(context): 


global lookBackDays 


today = context.now 


last_day = get_previous_trading_date("SZSE", today) 


data = history n(symbol-context.symbol, frequency = context.frequency, 
count=int (lookBackDays), 
end time-last day, fields-context.fields, 
fill missing-"last", adjust-ADJUST PREV, df-True) 


close = np.asarray((data["close"].values)) 
high = np.asarray((data["high"].values)) 
low = np.asarray((data["low"].values)) 


todayVolatility - np.std(close) 
yesterDayVolatility = np.std(close[:-1]) 
deltaVolatility = (todayVolatility - yesterDayVolatility) / todayVolatility 


lookBackDays = np.round(lookBackDays * (1 + deltaVolatility) 
lookBackDays 


np.min([lookBackDays,context.ceilingAmt]) 
lookBackDays - np.max([lookBackDays,context.floorAmt]) 


MidLine - np.average (close) 
Band = np.std(close) 


upBand = MidLine + context.bolBandTrig * Band 
lowBand - MidLine - context.bolBandTrig * Band 


buyPoint - np.max (high) 

sellPoint = np.min (low) 

current data = current (symbols= context.symbol) 
current price = current data[0]["price"] 


if ((close[-1] » upBand) and (current price » buyPoint)): 
order percent (symbol-context.symbol, percent=1, 
side=OrderSide Buy,position effect = PositionEffect Open , 
order type-OrderType Market, price-0) 


if ((close[-1] « lowBand) and (current price « sellPoint)): 
order percent (symbol-context.symbol, percent-0, 
Side-OrderSide Sell,position effect — PositionEffect Open , 
order type-OrderType Market, price-0) 
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run ( 
strategy id-'c08eed5a-00c2-11e8-9308-902b3463cafl', 


filename-'Dynamic Breakout II.py', 
mode-MODE BACKTEST, 


tOken-! dXX EEEEEEEEEEEE EEEE EEEE EEEE EEEa 
backtest start time-'2017-01-01 09:00:00', 
backtest end time-'2017-12-31 15:00:00', 
backtest initial cash-20000, 

backtest adjust-ADJUST PREV 

) 


具体 回 测 请 读者 自行 完成 。 


5.5 小 结 


本 章 介 绍 了 Talib 的 基本 使 用 方法 ，Talib 是 金融 分 析 中 最 常用 的 技术 分 析 指 标 工具 ， 通 
过 图 表 或 技术 指标 的 记录 研究 市 场 过 去 及 现在 的 行为 反应 ， 以 推测 未 来 价格 的 变动 趋势 。 

但 是 从 更 深 一 个 层次 来 说 ， 仅 仅 依靠 技术 分 析 指 标 对 走势 做 出 预测 并 不 可 行 ， 因 为 决定 
一 个 公司 股票 价格 的 最 终 因素 是 其 内 在 的 价值 ， 而 技术 分 析 只 关心 证 券 市 场 本 身 的 变化 ， 不 
考虑 会 对 其 产生 某 种 影响 的 经 济 方面 、 政 治 方面 等 各 种 外 部 的 因素 。 

后 续 的 介绍 将 以 基本 面 分 析 为 主 ， 这 也 是 本 书 的 重点 。 


99 


技术 分 析 与 基本 面 分 析 是 股票 价格 分 析 最 基础 也 是 最 经 典 的 两 个 部 分 。 

技术 分 析 是 针对 股票 的 特定 走势 与 价格 趋势 做 出 分 析 策 略 ， 主 要 根据 某 个 特定 时 间 段 的 
开盘 价 、 收 盘 价 、 最 高 价 与 最 低 价 以 及 特定 时 间 段 的 成 交 量 等 基本 因素 做 出 分 析 结 果 。 

基本 面 分 析 是 基于 公司 本 身 的 素质 ， 对 影响 公司 估价 走势 的 基本 因子 进行 处 理 和 排序 ， 
生成 可 以 被 量化 统计 的 结果 数据 。 


6.) 一 个 奇怪 的 问题 


为 什么 要 “ 买 买 买 ”( 见 图 6-1) ? 


| 
买 ! 买 ! 买 入 LÀ 


图 6-1 EEK 


相信 读者 在 买 东西 之 前 一 定 会 综合 考虑 要 买 的 这 个 东西 的 形状 大 小 、 颜 色 类 型 甚至 是 重 
量 是 否 符合 自己 的 要 求 。 也 就 是 说 ， 读 者 在 最 终 决 定 要 买卖 一 个 商品 之 前 ， 一 定 会 认真 比较 
某 个 商品 的 某 些 特点 ， 还 有 可 能 会 列 出 不 同 的 备 选 方案 ， 从 而 最 终 决 定 买 入 哪个 商品 。 

那么 有 一 个 非常 奇怪 的 问题 ， 为 什么 大 多 数 人 在 买 入 一 只 股票 的 时 候 都 没有 任何 思考 的 
过 程 ， 甚 至 是 在 一 秒 钟 之 内 就 做 出 了 买卖 的 决定 呢 ? 

下 面 将 给 出 解释 。 


6.1.1 因子 是 什么 

因子 是 什么 ? 

通俗 地 说 ， 因 子 就 是 在 选择 一 只 股票 时 ， 能 够 帮助 你 做 出 决定 的 一 个 因素 。 例 如 ， 如 果 
你 觉得 净利 润 增长 率 大 于 25% 的 公司 就 是 一 个 好 公司 ， 那 么 只 需要 关注 净利 润 增长 率 大 于 
25% 的 公司 即 可 。 这 个 净利 润 增长 率 大 于 25% 就 是 因子 。 

这 只 是 举 一 个 例子 ， 真 正 影响 公司 股价 、 推 动 资金 进入 和 股价 波动 的 因子 是 各 种 各 样 
的 ， 有 基本 面 、 消 息 面 、 政 策 面 以 及 关于 研 报 和 分 析 师 预测 的 预期 等 。 

下 面 举例 来 说 ， 对 于 国内 A 股 ， 长 时 间 能 够 表现 出 色 的 因子 主要 有 哪些 。 


1. 规模 因子 : 小 市 值 因子 
无 论 是 在 A 股市 场 ， 还 是 港 台 以 及 欧美 市 场 ， 小 市 值 因子 一 直 存 在 ， 并 且 小 市 值 因子 的 
逻辑 很 简单 易 懂 。 市 值 越 小 ， 其 操纵 涨 跌 所 需要 的 资金 越 少 ， 股 票 被 操纵 的 可 能 性 就 越 大 。 


2. 技术 因子 : 动量 反 转 因 子 


动量 反 转 因子 是 典型 的 技术 因子 ， 指 的 是 单个 标的 涨 跌幅 度 的 反 转 效应 明显 。 简 单 地 
说 ， 就 是 涨 得 多 了 就 要 跌 ， 跌 得 多 了 就 要 涨 ， 远 离 要 回归 ， 价 格 归于 价值 。 这 个 其 实 就 是 在 
股市 里 说 的 补 涨 补 跌 。 


3. 预测 因子 : 预测 收入 的 因子 


预测 因子 指 的 是 能 够 预测 下 一 个 财务 周期 的 各 种 因子 。 预 测 收入 增长 的 越 高 越 好 ， 净 利 
润 增长 的 越 高 越 好 ， 支 出 费用 越 低 越 好 。 这 些 都 是 能 够 帮助 决定 股价 的 一 些 因 子 。 

一 般 来 说 ， 因 子 包 括 9 K, MARAT HRAT REKAT WAAT EEA 
子 、 交 投 因子 、 波 动因 子 、 股 东 因 子 、 一 致 性 预测 因子 。 

@ ”规模 因子 ， 如 总 市 值 、 流 通 市 值 、 自 由 流通 市 值 。 
ERF, wh (TTM). TR, TAR PRE, ALMAE. 
成 长 因子 ， 如 营业 收入 同比 增长 率 、 营 业 利润 同比 增长 率 、 归 属于 母 公司 的 近 利 润 
同比 增长 率 、 经 营 活动 产生 的 现金 流 金额 同比 增长 率 。 
© ”盈利 因子 ， 如 净 资 产 收益 率 (ROE ) 、 总 资产 报酬 率 (ROAD 、 销 售 毛利 率 、 销 售 


净利 率 。 
€ ”动量 反 转 因子 ， 如 前 一 个 月 涨 跌幅 、 前 2 个 月 涨 跌幅 、 前 3 个 月 涨 跌幅 、 前 6 个 月 
@” 交 投 因子 ， 如 前 一 个 月 日 均 换 手 率 。 
€ ”波动 因子 ， 如 前 一 个 月 的 波动 率 、 前 一 个 月 的 振幅 。 
@ ”股东 因子 ， 如 户 均 持 股 比 例 、 户 均 持 股 比例 变化 、 机 构 持 股 比例 变化 。 
e 一致 性 预测 因子 ， 如 研 报 或 者 分 析 师 预测 当年 净利 润 增长 率 、 主 营业 务 收 入 增长 


率 、 最 近 一 个 月 预测 净利 润 上 调幅 度 、 最 近 一 个 月 预测 主 营业 务 收 入 上 调幅 度 、 最 
近 一 个 月 上 调 评级 占 比 。 
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6.1.2 选取 因子 

最 简单 的 方法 是 选取 一 些 自己 喜欢 的 因子 ， 比 如 前 面 所 说 的 增长 率 、 市 值 、 营 业 收入 
等 ， 一 个 一 个 计算 不 同 因子 的 收益 ， 看 看 效果 如 何 ， 效 果 好 就 留 下 ， 效 果 不 好 则 别 除 ， 青 选 
#T-t. 

下 面 就 以 前 面 所 说 的 净利 润 增长 率 为 基础 做 出 因子 的 效果 表现 。 


1. 从 表 中 提取 因子 


对 于 读者 使 用 掘 金 量化 来 说 ， 选 取 因子 的 第 一 步 就 是 从 掘 金 量化 所 提供 的 财务 数据 表 
〈 掘 金 量化 主 界面 一 帮助 中 心 一 数据 文档 ) 中 抽取 特定 的 数据 。 掘 金 量化 提供 了 特定 的 财务 因 
子 代码 供 选 取 ， 代 码 如 下 : 


def get fundamentals n(table, symbols, end date, fields=None, 


filter-None,order by-None, count-1, df-False): 


这 里 函数 名 为 get fundamentals n， 而 其 中 的 参数 分 别 为 表 名 、 股 票 池 名 、 截 止 于 特定 的 
选择 时 间 以 及 需要 选择 的 因子 等 ，count 是 周期 数 ， 每 个 标的 选择 几 个 数据 ，df 指 的 是 生成 
的 数据 以 pandas 的 形式 进行 返回 。 

例如 ， 从 掘 金 量化 主 界面 一 帮助 中 心 一 数据 文档 一 财务 数据 一 衍生 财务 指标 中 选择 净利 
润 增长 率 因子 ， 代 码 如 下 : 

_df= get fundamentals n(table-'deriv finance indicator', 
symbols-symbol list,end date-day time, count=1,fields=" NPGRT ", df=True) 


2. 对 于 股票 池 的 选择 

在 前 面 提取 因子 时 ， 经 过 查询 相应 的 表 和 因子 名 可 以 选取 对 应 的 因子 。 但 是 问题 在 于 ， 
如 果 要 在 股票 池 中 选择 我 们 所 需要 的 因子 ， 那 么 首先 要 建立 对 应 的 股票 池 。 

建立 股票 池 的 方法 ， 对 于 读者 来 说 ， 当 然 可 以 选择 特定 的 股票 来 组 成 一 个 股票 池 ， 但 是 
无 特定 目标 时 ， 一 般 选 择 采 用 股指 组 成 的 成 分 股 来 作为 股票 池 。 同 样 ， 掘 金 也 提供 了 对 应 的 
函数 来 获取 对 应 的 股指 对 应 的 成 分 股 。 


def get history constituents(index, start date-None, end date-None): 


这 里 index 代表 的 是 股指 ，start_date 与 end date 指 的 是 股指 日 期 ， 而 返回 的 list 每 项 是 
个 字典 ， 包 含 的 key 值 如 下 。 

trade date: 交易 日 期 ，datetime 类 型 。 

constituents: 一 个 字典 ， 每 只 股票 的 symbol 作为 key fH, weight 作为 value 值 。 


举例 如 下 : 


symbol list = get history constituents (index-"SHSE.000016", 


start date-now) [0].get ("constituents") keys () 


返回 的 是 上 证 50 成 分 股 ， 结 果 如 下 : 
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['SHSE.600000', 'SHSE.600016', 'SHSE.600019', 'SHSE.600028', 'SHSE.600029', 
'SHSE.600030', 
"SHSE.600036', 'SHSE.600048', 'SHSE.600050', 'SHSE.600104', 'SHSE.600111', 
'SHSE.600309', 
'SHSE.600340', 'SHSE.600518', 'SHSE.600519', 'SHSE.600547', 'SHSE.600606', 
'SHSE.600837', 
'SHSE.600887', 'SHSE.600919', 'SHSE.600958', 'SHSE.600999', 'SHSE.601006', 
'SHSE.601088', 
"SHSE.601166', 'SHSE.601169', 'SHSE.601186', 'SHSE.601211', 'SHSE.601229', 
'SHSE.601288', 
'SHSE.601318', 'SHSE.601328', 'SHSE.601336', 'SHSE.601398', 'SHSE.601601', 
'SHSE.601628', 
'SHSE.601668', 'SHSE.601669', 'SHSE.601688', 'SHSE.601766', 'SHSE.601800', 
'SHSE.601818', 
'SHSE.601857', 'SHSE.601878', 'SHSE.601881', 'SHSE.601985', 'SHSE.601988', 
'SHSE.601989', 
'SHSE.603993'] 


下 面 将 选取 的 成 分 股 与 因子 组 合 在 一 起 ， 要 求 选 取 当 日 的 上 证 50 成 分 股 的 增长 率 。 
【程序 6-1】 


from gm.api import * 


import datetime 


set token("715f84a04a4574e2e77491d62f7c8bbc0c663b12" 
day time,hour and mins-str(datetime.datetime.now().strftime('$Y-$m- 


$d $H:$M:$S')).split(" "): 
index - "SHSE.000016" 


symbol list-get history constituents (index-index,start date-day time) [0].get(" 


constituents").keys() 


df= 

get fundamentals n(table-"deriv finance indicator",symbols-symbol list,end dat 
e-day time, 

fields="NPGRT", count=1, df=True) 


print (df.head (5) ) 


【程序 6-1】 中 首先 导入 了 掘 金 量 化 的 程序 包 ， 而 datetime 是 获取 当前 时 间 的 辅助 包 ， 
可 以 通过 函数 获取 当前 系统 对 应 的 时 间 并 以 字符 串 的 形式 打印 出 来 ， 之 后 通过 字符 串 分 割 出 
当前 的 年 月 日 和 时 分 秒 。 而 symbol list 是 获取 当前 日 期 上 证 50 构成 的 成 分 股 ， 之 后 将 
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symbol list 导入 对 应 的 因子 获取 函数 ， 最 终结 果 如 图 6-2 所 示 。 


Symbol pub date end_date NPGRT 
SHSE.601288 2018-04-28 2018-03-31 5.4317 
SHSE.601166 2018-04-25 2018-03-31 4.9394 
SHSE.600606 2018-04-24 2018-03-31 30.3047 
SHSE.600999 2018-04-27 2018-0331 -20.5682 
SHSE.601668 2018-04-28 2018-03-31 14.9802 


PUWUNRO 


图 6-2 上 证 50 成 分 股 股票 增长 率 情况 

读者 可 以 尝试 在 不 同 的 表 以 及 使 用 不 同 的 因子 来 获取 不 同 的 因子 状态 。 

3. 对 因子 进行 排序 

对 于 单 因子 净利 润 增长 率 来 说 ， 当 然 是 越 高 越 好 。 

下 面 对 因 子 进行 排序 ， 在 这 里 并 不 是 简单 地 对 数据 进行 排序 ， 而 是 需要 对 决定 因子 的 股 
票 代码 进行 排序 ， 代 码 如 下 : 
df= get fundamentals n(table-"deriv finance indicator",symbols-symbol list, 
end date-day time, fields="NPGRT", count=1, df=True) 


df = df.sort values(["NPGRT"],ascending-False) 
print (df.head(5)) 


这 里 是 直接 对 pandas 数据 进行 排序 ，sort_value 函数 是 对 pandas 内 部 的 数据 进行 排序 的 
函数 ，ascending=False 决定 了 排序 方式 是 由 大 到 小 的 ， 最 终结 果 如 图 6-3 所 示 。 


Symbol pub date end_date 
600050 2018-04-21 2018-03-31 
603993 2018-04-28 2018-03-31 


601628 2018-04-27 2018-03-31 
601601 2018-04-28 2018-03-31 
601857 2018-04-28 2018-03-31 


图 6-3 排序 后 的 上 证 50 成 分 股 股票 增长 率 情况 
还 有 一 种 方法 是 产生 对 应 的 字典 ， 之 后 对 字典 进行 排序 ， 部 分 代码 如 下 : 


df= 

get fundamentals n(table-"deriv finance indicator",symbols-symbol list,end dat 
e-day time, 

fields="NPGRT", count=1, df=True) 


npgrt = df["NPGRT"] .values 
symbol and npgrt = {} 
for symbol, npgrt in zip(symbol list,npgrt): 


symbol and npgrt[ symbol] = _npgrt 
symbol and npgrt = sorted(symbol and npgrt d.items(),key = lambda 
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x:x[1],reverse = False) # 这 里 是 由 小 到 大 排列 
for | in symbol and npgrt: 
print( [0]) 

这 里 首先 获取 了 装载 NPGRT 数据 的 pandas， 之 后 建立 了 一 个 symbol 与 NPGRT 对 应 的 
字典 ，sorted 函数 用 于 对 数据 进行 自动 排序 ， 这 里 根据 字典 的 value 对 数据 排序 ， 之 后 将 排序 
后 的 值 返回 到 数据 字典 中 。 具 体 结果 请 读者 自行 打印 查看 。 


6.1.3 ” 单 因子 选 股 轮 动 测试 

下 面 使 用 选 定 的 因子 进行 选 股 轮 动 。 在 使 用 某 个 策略 的 时 候 ， 最 重要 的 是 确定 策略 所 使 
用 的 方案 ， 本 节 中 所 使 用 的 方案 如 下 : 

e ”股票 池 选 用 上 证 50 的 成 分 股 。 

e ”选择 股票 池 中 净利 润 增长 率 排名 前 5 的 5 家 公司 。 

e 每 个 月 进行 调 仓 ， 调 出 排名 跌 出 前 5 的 公司 ， 重 新 买 入 进入 排名 前 5 的 公司 。 

1. init 格式 化 对 象 

使 用 掘 金 框 架 进行 回 测 设计 ， 第 一 步 就 是 设 定格 式 化 对 象 ， 其 中 最 重要 的 是 设置 回 测 的 
方式 。 
def schedule(schedule func, date rule, time rule): 

schedule 函数 定义 了 回 测 的 内 容 ，schedule_func 是 回 测 主 调用 函数 ， 回 测 主 内 容 写 在 此 
Ak, date rule 是 基于 回 测 的 时 间 周 期 ，time_rule 是 每 个 时 间 周 期 中 具体 执行 的 时 间 点 。 代 码 
Bun v: 
from gm.api import * 
import os 


def init(context): 


context.index = "SHSE.000016" 

context.num = 5 

schedule (schedule func-algo, date_rule='lw', time_rule='09:31:00') 

最 上 端的 from 导入 了 掘 金 的 程序 包 ，os 是 操作 系统 需要 的 包 ， 在 后 面 会 介绍 。init 函数 
是 回 测 框架 的 初始 化 函数 ， 可 以 设置 大 量 初始 化 内 容 。 


2. algo 函数 

algo 是 回 测 框架 的 主要 算法 框架 ， 这 里 定义 了 每 个 时 间 周 期 需要 进行 的 策略 的 主要 内 
容 。 在 本 策略 中 ， 为 了 简单 起 见 ， 首 先 在 每 个 frequency《〈 设 定 的 策略 运行 周期 ) 上 进行 清仓 
操作 ， 之 后 获取 当前 时 间 段 的 上 证 50 成 分 股 ， 下 一 步 获取 成 分 股 对 应 的 因子 数据 ， 之 后 对 因 
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子 进行 排序 ， 买 入 排名 前 5 的 标的 内 容 。 


def algo(context): 


now — context.now 
order close all() 


symbol list- get history constituents (index-context.index, start date-now) [0]. 
get ("constituents").keys() 
df — get fundamentals n(table-"deriv finance indicator", 
symbols-symbol list, end date-now, fields-"NPGRT",count-1, df-True) 
f = df.sort values(["NPGRT"], ascending-False) 


target list df["symbol"].values 


target list[:context.num] 


target list 


for symbol in target list: 
order target percent (symbol=symbol, percent-1. / context.num, 


order type-OrderType Market, position side-PositionSide Long) 


这 里 order close all 为 了 简略 起 见 ， 直 接 清 仓 。 在 真实 的 实 盘 交易 时 ， 为 了 节省 交易 费 
用 等 ， 需 要 判断 持仓 情况 ， 这 里 先 不 采用 。 


【程序 6-2】 


from gm.api import * 


import os 
def init (context): 


context.index = "SHSE.000016" 

context.num = 5 

schedule (schedule func-algo, date rule-'1m', time_rule='09:31:00') 
def algo(context): 

now = context.now 


order close all() 


symbol list- get history constituents (index-context.index, start date-now) [0]. 
get ("constituents") .keys () 

df = get fundamentals n(table-"deriv finance indicator", 
symbols-symbol list, end date-now, fields-"NPGRT",count-1, df-True) 

df = df.sort values(["NPGRT"], ascending=False) 


target list — df["symbol"].values 


target list — target list[:context.num] 
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for symbol in target_list: 
order target percent(symbol-symbol, percent-1. / context.num, 


order type-OrderType Market, position side-PositionSide Long) 


def on backtest finished(context, indicator): 
print (indicator) 
if name == " main ": 
run( 
strategy id-'9f53el15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'715f84a04a4574e2e77491d62f7c8bbc0c663b12', 
backtest start time-start time, 
backtest end time-'2018-06-25 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 


) 
具体 代码 运行 结果 如 图 6-4 所 示 。 


6-4 选取 净利 润 增长 率 排 前 5 的 回 测 结果 


可 以 看 到 ， 通 过 选取 净利 润 增长 率 前 5 的 股票 进行 回 测 ， 其 累计 收益 率 为 42.85%， 而 同 
期 上 证 50 的 基准 收益 率 为 25.98%， 可 以 说 获得 了 约 17% 的 额外 收益 。 
下 面 展 示 一 个 反例 ， 这 里 是 作者 随机 选择 的 一 个 因子 ， 单 因子 测试 的 结果 如 图 6-5 


所 示 。 
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图 6-5 一 个 反例 因子 的 测试 结果 
从 图 6-5 可 以 看 到 ， 选 择 因子 时 ， 好 的 因子 可 以 有 效 地 提高 收入 ， 让 使 用 者 能 够 获取 丰 
厚 的 收益 ， 而 坏 的 因子 非但 不 会 带 来 收益 ， 反 而 会 促使 使 用 者 产生 额外 亏损 。 
怎么 选取 一 个 好 的 因子 呢 ? 这 点 在 下 一 节 会 专门 讲述 。 


fy 


了 。A ”因子 的 量化 选择 


关于 因子 的 作用 ， 在 6.1 节 已 经 做 了 专门 的 讲述 。 随 之 而 来 的 问题 是 因子 的 选择 。 究 竟 
什么 样 的 因子 会 带 来 额外 收益 ， 而 什么 样 的 因子 会 带 来 额外 损失 呢 ? 图 6-6 所 示 为 好 的 因子 


与 坏 的 因子 所 带 来 的 效果 。 


图 6-6 好 的 因子 与 坏 的 因子 


从 传统 的 方法 来 看 ， 对 于 不 同 的 候选 因子 ， 在 模型 设 定 的 初期 ， 计 算 每 个 周期 每 只 正常 
交易 股票 的 该 因子 的 大 小 ， 按 从 小 到 大 的 顺序 对 样本 股票 进行 排序 ， 并 平均 分 为 n 个 组 合 ， 
一 直 持 有 到 周期 末 ， 在 下 个 周期 初 再 按 同 样 的 方法 重新 构建 n 个 组 合并 持 有 到 周期 末 ， 一 直 
重复 到 模型 结束 。 
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6.2.1 基于 IC 值 的 多 因子 计算 方法 

随 着 金融 行业 的 发 展 ， 在 金融 系统 中 产生 能 够 表述 某 一 方面 问题 的 因子 越 来 越 多 ， 大 概 
可 以 分 为 估 值 与 市 值 类 因子 、 偿 债 能 力 和 资本 结构 类 因子 、 分 析 师 预期 类 因子 、 均 线 型 因 
子 、 成 交 量 型 因子 、 成 长 能 力 类 因子 、 每 股指 标 因 子 、 现 金 流 指标 因子 、 僵 利 能 力 和 收益 质 
量 类 因子 、 能 量 型 因子 、 营 运 能 力 类 因子 、 超 买 超 卖 型 因子 、 趋 势 型 因子 这 些 大 类 。 

大 类 因子 进一步 细 分 下 去 ， 目 前 来 说 会 形成 5000 个 左右 的 可 观测 因子 ， 因 此 要 从 中 找 出 
有 效 因 子 ， 一 个 有 效 而 合适 的 测试 方法 必 不 可 少 。 

目前 最 常用 的 就 是 因子 IC 的 计算 方法 。 因 子 IC 法 来 自 于 多 因子 模型 的 打分 法 ， 指 的 是 
选用 若干 能 够 对 股票 未 来 时 间 段 收益 产生 预测 作用 的 因子 ， 根 据 每 个 因子 在 对 应 位 置 的 状况 
给 出 股票 在 该 位 置 上 的 得 分 ， 然 后 按照 一 定 的 权重 将 各 个 因子 的 得 分 相 加 ， 从 而 得 到 该 股票 
各 个 因子 的 最 终 得 分 。 

因此 可 以 看 到 ， 在 打分 模型 中 ， 各 个 因子 的 权重 设 定 和 计算 非常 重要 ， 即 使 是 非常 好 的 
因子 ， 在 权重 配置 下 也 可 能 会 有 不 好 的 结果 。 

IC 的 计算 公式 如 下 : 


k=l 


Na = a n 
xe -X YS Gn = xy 
[e [eri 


从 公式 中 可 以 看 到 ，IC 的 计算 公式 实际 上 就 是 不 同 序列 的 相关 系数 的 计算 ， 那 么 IC 值 
的 计算 用 一 句 话 解释 就 是 : “IC 值 为 因子 与 对 应 的 下 期 收益 率 之 间 的 关系 ”。 下 面 通过 
Python 对 IC 进行 计算 。 假 设 不 同 的 股票 在 某 个 时 间 段 对 应 的 因子 值 和 下 期 的 收益 率 如 表 6-1 
所 示 。 


R61 ”股票 因子 与 收益 率 表 


股票 d 


读者 可 以 手动 计算 此 时 的 IC 值 ， 但 是 Python 中 的 NumPy 工具 包 提 供 了 更 为 方便 的 计算 
方法 ， 即 corrcoef 函数 : 


corr = np.corrcoef () 


完整 代码 如 下 : 
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【程序 6-3】 


import numpy as np 


factor A = [6,1,2,7] 
return_profit = [0.02,0.004,0.005,0.007] 


corr = np.corrcoef (factor l,return profit) 


print (corr) 
打印 结果 如 下 : 
JE xS 0.593641] 
[ 0.593641 1. ]] 
其 中 ，0.593641 是 两 个 序列 的 相关 系数 ， 即 为 其 对 应 的 IC 值 。 读 者 可 以 自行 计算 因子 B 
对 应 的 IC 值 。 


622 ”基于 IC 值 的 多 因子 计算 方法 GE) 

除了 直接 求 相关 系数 的 计算 方法 外 ， 还 有 一 种 IC 值 的 计算 方法 ， 即 回归 法 。 简 单 来 说 ， 
就 是 用 该 期 的 股票 收益 率 对 上 期 的 因子 值 做 回归 ， 并 用 该 期 的 因子 值 预测 下 期 股票 的 收益 
率 ， 取 下 期 预测 的 收益 率 和 下 期 实际 收益 率 的 相关 系数 。 

下 面 使 用 表 6-1 来 介绍 基于 回归 法 的 IC 值 求解 。 

1. 计算 因子 与 收益 率 的 回归 系数 

对 于 回归 的 计算 方法 有 很 多 种 ，Python 提供 了 专门 的 工具 包 ， 帮 助 使 用 者 进行 回归 系数 
的 计算 。 所 需要 的 包 如 下 : 


import statsmodels.api as sm 


import numpy as np 


其 使 用 方法 如 下 : 


x = npeasarrayi([t, 2y 3, dr Sr (6, Ta Br SR 101) 
y= 10 + 4 * xl 


x_ = sm.add_constant (x) 
model = sm.OLS(y, x_) 
results = model.fit() 


print (results.params) 


其 中 ，x 是 生成 的 一 个 序列 变量 ， 而 y 为 方程 的 计算 结果 ， 具 体 打印 结果 如 下 : 
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[10. 4.] 
这 里 result params 对 应 的 是 两 个 结果 ， 第 一 个 为 noise 值 ， 第 二 个 为 对 应 的 weight 值 。 
使 用 回归 计算 因子 与 收益 率 的 代码 段 如 下 : 

factor 1 = [6,1,2,7] 


return profit = [0.02,0.004,0.005,0.007] 


= sm.add constant (factor 1) 


x 
y = return_profit 


model = sm.OLS(y, x_) 
results = model.fit() 


print (results.params) 
而 最 终 打 印 结果 如 下 : 

[ 0.003 0.0015] 
2. 计算 下 一 期 股票 收益 率 
在 得 到 了 对 应 的 回归 系数 后 ， 下 一 步 是 计算 对 应 的 预期 股票 收益 率 。 代 码 段 如 下 : 


pre_return profit = results.params[0] + np.asarray(factor 1) * 


results.params[1] 
其 结果 如 下 : 

[ 0.012 0.0045 0.006 0.0135] 
3. 计算 预期 收益 率 与 真实 收益 率 的 相关 系数 
最 后 一 步 是 计算 预期 收益 率 与 真实 收益 率 之 间 的 相关 系数 。 代 码 段 如 下 : 


corr = np.corrcoef (pre return profit,return profit) 


print(corr) 
完整 代码 如 【程序 6-4] Prom. 
【程序 6-4】 

import statsmodels.api as sm 


import numpy as np 


factor 1 = [6,1,2,7] 
return_profit = [0.02,0.004,0.005,0.007] 


X = sm.add constant(factor 1) 
y = return profit 


model = sm.OLS(y, x_) 
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results = model.fit() 
pre return profit = results.params[0] + np.asarray(factor 1) * 


results.params[1] 


corr = np.corrcoef (pre return profit,return profit) 


print (corr) 


最 终结 果 如 下 : 
Ee 0.593641] 
[ 0.593641 1. 1] 


可 以 看 到 ， 使 用 两 种 方法 计算 出 的 相关 系数 的 值 是 相同 的 。 本 例 中 参数 的 计算 相对 简 
单 ， 读 者 可 以 采用 更 为 复杂 的 数据 来 计算 对 应 的 数据 值 。 

补充 说 明 一 点 ， 对 于 不 同 的 股票 ， 由 于 其 市 值 不 同 ， 因 子 的 影响 往往 差异 很 大 。 例 如 ， 
最 基本 的 市 春 率 因子 ， 往 往 会 集中 于 银行 等 体 量 比较 大 的 板块 中 。 在 对 因子 的 IC 值 进行 计算 
之 前 ， 首 先 要 根据 不 同 的 条 件 做 回归 分 析 ， 取 残 差 作为 一 个 替代 值 。 这 里 不 展开 介绍 ， 相 关 
代码 段 如 下 : 


def fast batch get neutralized factor(symbol list,factor,now,more is better): 


last day = get previous trading date ("SHSE",now) 

_symbol list = symbol list 

symbol list - [] 

for in symbol list: 

symbol list.append( ) 

TOTMKTCAP - [] 

# 根 据 市 值 进行 中 性 化 处 理 

data = get fundamentals (table='trading_derivative_indicator', 
symbols=symbol list, start_date=last_day, end_date=last_day, 
fields="TOTMKTCAP") 


if len(data) == len(symbol list): 
for _ in data: 
Ery: 
TOTMKTCAP.append( ["TOTMKTCAP"]) 
except: TOTMKTCAP. append (1e*15) 
else: 
for symbol in symbol list: 
try: 
_data = get fundamentals (table-'trading derivative indicator', 
symbols=symbol,  date-last day, end date-last day, fields-"TOTMKTCAP") 
TOTMKTCAP.append( data [0] ["TOTMKTCAP"]) 


except: 
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TOTMKTCAP . append (1e415) 


factor with table = {} 
for line in open("../tools/#| 


line = line.strip('\n") [0:] 
lines - line.split(",") 
factor with table[lines[1]] = lines[0] 


table name — factor with table[factor] 


factor value list - [] 


因子 表 列 .txt"， encoding-'UTF-8'): 


data = get fundamentals (table=table name, symbols=symbol list, 


start_date=last_day, 
end_date=last_day, fields=factor) 


if len(data) == len(symbol list): 
for _ in data: 
try: 
factor value list.append( [factor]) 
except: 
if more is better — True: 


factor value list.append(-999) 
else: 
factor value list.append(999) 
else: 
for symbol in symbol list: 
try: 


.data - get fundamentals (table-table name, symbols-symbol, 


start date-last day, end date-last day, fields-factor) 
factor value list.append( data[0] [factor] 
except: 
if more is better == True: 
factor value list.append(-999) 
else: 


factor value list.append(999) 


TOTMKTCAP = fast detal edge(TOTMKTCAP)  # 这 个 是 x 


factor value list = fast detal edge(factor value list) 


. TOTMKTCAP = sm.add constant (TOTMKTCAP) 
model = sm.OLS(factor value list, _TOTMKTCAP) 
results = model.fit() 


divaluc dict = {} 


# 这 个 是 Y 


113 


for i in range(len(symbol list)): 
d value = factor value list[i] - ( results.params[1] * TOTMKTCAP[i] + 
results.params[0]) 


d value dict[symbol list[i]] = d value 


return d value dict 


因子 IC 〈 信 息 系数 ) 代表 因子 预测 股票 收益 的 能 力 。IC 具体 为 全 部 股票 在 调 仓 周期 期 初 
的 排名 和 本 调 仓 周期 收益 排名 的 线性 相关 度 。IC 的 均值 是 多 个 调 仓 周期 IC 的 平均 值 。 

IC 越 大 ， 表 明 是 排名 越 靠 前 的 股票 ， 未 来 收益 排名 也 越 靠 前 。IC 的 理论 最 大 值 为 1， 但 
对 于 多 时 间 段 的 IC 均值 来 说 ， 当 其 值 大 于 0.05 时 ， 就 可 以 认为 因子 是 有 效 的 阿尔 法 因子 ， 
大 于 0.1 时 ， 就 可 以 认为 因子 是 特别 好 的 阿尔 法 因子 。 当 IC 均值 接近 0 时 ， 因 子 可 被 认为 是 
无 效 因子 。 当 IC 均值 小 于 -0.05 时 ， 因 子 可 以 被 认为 是 反 向 有 效 因子 ， 只 要 将 排名 次 序 颠 倒 
过 来 ， 因 子 就 是 正 向 的 阿尔 法 因子 。 简 而 言 之 ，IC 均值 的 绝对 值 越 大 ， 因 子 越 有 效 。 

BIT IR CS tbs) 代表 因子 在 历史 上 表现 的 稳定 性 ， 公 式 如 下 : 


ICme; 
IR- mean 
ICstd 
因子 在 不 同 历史 时 期 的 表现 有 可 能 差别 很 大 ， 有 的 时 候 表 现 得 很 好 ， 有 的 时 候 表现 得 很 
差 ， 表 现在 IC 上 ， 就 是 IC 的 波动 率 很 大 。 假 设 IC 均值 一 定 ，IC 的 波动 率 越 小 ， 因 子 表现 
得 越 稳定 ，IR 就 越 大 。 


6.2.3 因子 1C 值 计算 的 目标 ， 等 权 法 因子 值 的 合成 
对 于 单个 因子 的 测试 来 说 ， 直 接 使 用 掘 金 程序 进行 测试 即 可 ， 如 果 回 测 人 员 觉 得 有 必要 
选用 更 多 的 因子 一 起 更 新 使 用 的 内 容 的 话 ， 需 要 对 因子 进行 合成 ， 生 成 一 个 新 的 数量 因子 。 
对 于 选 定 的 因子 ， 最 常用 的 方法 是 按 等 权重 进行 合成 ， 如 表 6-2 所 示 。 


表 6-2 ”股票 多 因子 与 收益 率 表 


| Cd | hae 
6 2 1 


股票 4 7 9 2 0.007 


x 62 ER 6-1 的 基础 上 做 了 修改 ， 增 加 了 一 个 因子 C。 下 面 根据 不 同 的 值 计算 对 应 的 
IC 值 。 其 代码 如 下 : 


【程序 6-5】 


import numpy as np 
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factor A = [6,1,2,7] 
factor B = [2,4,8,9] 
factor C - [1,5,6,2] 
return profit — [0.02,0.004,0.005,0.007] 


corr = np.corrcoef (factor A,return profit) 
print ("factor_A:",corr[0] [1]) 


corr = np.corrcoef (factor B,return profit) 
print ("factor B:",corr[0] [1]) 


corr = np.corrcoef (factor C,return profit) 
print ("factor_C:",corr[0] [1]) 


打印 结果 如 下 : 


factor A: 0.593641001409 
factor B: -0.651000828374 
factor C: -0.790625442073 


可 以 看 到 对 应 不 同 的 因子 值 ， 其 IC 值 也 不 相同 ， 因 子 A 的 IC 值 约 为 0.59， 而 因子 B 和 


区 时 需要 对 其 进行 辨别 。 


因子 C 对 应 的 IC 值 约 为 -0.65 和 -0.79。 此 时 ， 因 子 B 和 因子 C 被 视 为 反 向 因子 ， 因 此 在 选 


如 果 从 表 中 的 3 个 因子 中 选 出 两 个 组 成 一 个 新 的 因子 ， 根 据 上 面 的 计算 方法 ， 选 择 因 子 
A 和 因子 C 是 最 为 合适 的 。 需 要 注意 的 是 ， 由 于 因子 C 是 负 相关 的 ， 因 此 在 计算 时 需要 将 其 


转 成 正 值 计算 ， 代 码 如 下 : 


factor total = np.asarray(factor A) + np.asarray(factor C) * -1 


这 里 factor A 与 factor C 共同 组 成 了 一 个 新 的 因子 ，factor total: 


[ 5. =4 -4 5) 


下 面 计算 新 的 因子 与 收益 率 之 间 的 IC 值 ， 代 码 如 下 : 


factor total = np.asarray (factor A) + np.asarray (factor C) * -1 


corr = np.corrcoef (return profit,factor total) 


print (corr[0] [1]) 


打印 结果 如 下 : 


0.69853547 


可 以 看 到 ， 相 较 于 单独 的 因子 A， 因 子 A 和 因子 C 合成 的 
0.1， 因 此 可 以 认为 合成 的 因子 能 够 提高 对 收益 率 的 反映 。 


因子 ， 其 IC 值 正 向 增加 了 
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» 是 X i 

+H; 而 由 于 因子 C 为 负 相关 的 ， 可 以 认为 对 收益 率 的 影响 越 小 越 好 ， 从 而 权 值 被 设 定 为 : 

-1。 至 于 在 计算 多 因子 时 到 底 是 越 大 越 好 还 是 越 小 越 好 ， 需 要 综合 认定 和 对 最 终结 果 的 : 

Se 判定 ， 一 定 要 在 同一 个 模型 中 统一 判断 标准 。 

在 前 面 6.1 节 已 经 介绍 了 ， 除 了 基本 面 因 子 外 ， 还 可 以 根据 不 同 的 条 件 生 成 各 种 有 代表 
性 的 因子 ， 这 点 在 下 一 节 会 介绍 。 


6.3 实战 : 基于 成 长 因子 的 模型 测试 


成 长 模型 是 一 种 以 公司 未 来 成 长 为 基础 的 选 股 模型 。 

成 长 投资 理论 由 现代 投资 理论 的 开路 先锋 之 一 ，Philip A-Fisher (RF) 最 早 提出 ， 他 在 
1959 年 的 名 著 《 怎 样 选 择 成 长 股 》 中 对 该 投资 理念 进行 了 详细 阐述 ， 解 释 了 成 长 股 的 标准 、 
如 何 寻找 成 长 股 、 怎 样 把握 时 机 获 利 等 一 系列 重要 的 问题 ， 为 广大 投资 者 称道 。 

在 实际 操作 中 ， 成 长 型 投资 通常 是 在 对 经 济 周期 和 行业 景气 分 析 的 基础 上 ， 结 合股 票 基 
本 面 情况 ， 包 括 收益 率 和 增长 率 等 属性 的 分 析 ， 来 评估 和 选择 成 长 型 股票 。 

在 量化 形式 上 ， 成 长 型 投资 主要 是 通过 ROE、ROA、ROIC、 营 业 收 入 增长 率 、 主 营业 
务 利润 率 等 参数 来 挖掘 成 长 性 相对 更 高 的 股票 。 


6.3.4 模型 说 明 

以 ROIC-NPG 两 个 指标 来 构建 成 长 模型 。 根 据 我 们 对 各 项 指标 的 重新 梳理 ， 现 将 ROIC 
列 为 质量 指标 ， 另 外 构建 包括 EBITG ( 息 税 前 收益 增长 率 ) 、NPG (净利 润 增长 率 ) 、MPG 
( 主 营利 润 增长 率 ) 、GPG (毛利 润 增长 率 ) 、OPG (营业 利润 增长 率 ) 、OCG (经 营 现 金 
流 增长 率 ) 、NAG ( 净 资 产 增长 率 ) 、EPSG (每 股 收益 增长 率 ) 、ROEG ( 净 资 产 收益 率 增 
长 率 ) 、GMPG (毛利 率 增长 率 ) 10 个 考核 公司 成 长 能 力 的 指标 。 


1. 因子 的 构建 形式 


在 多 因子 计算 的 初始 ， 需 要 建立 一 个 能 够 存储 因子 的 矩阵 ，Python PX FERRES, 
一 般 使 用 的 是 pandas 工具 包 ， 而 对 于 选 定 的 因子 ， 建 立 一 个 可 以 容纳 其 数据 的 字段 名 即 可 ， 
代码 如 下 : 


df = pd.DataFrame([]) 
df["symbol"] = symbol list 


df["EBITG"] = -999 
df["NPG"] = -999 
df["TAG"] = -999 # MPG Hi Tac KE 
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df["GPG"] = -999 
d£["OPG"] = -999 
daf["OcG"] = -999 


可 能 读者 注意 到 ， 在 这 里 其 值 被 定义 为 -999， 这 样 做 的 目的 是 ， 在 读 取 数 据 时 ， 为 了 防 
止 有 数据 缺失 或 者 出 错 ， 将 默认 值 设置 成 现实 数据 中 可 能 会 遇 到 的 最 小 值 。 这 样 做 的 好 处 是 
在 后 续 计 算 时 可 以 自动 将 出 错 的 数据 的 计算 结果 降 为 最 差 结果 。 


2. 因子 的 获取 
对 于 需要 使 用 的 因子 ， 气 金 量 化 也 提供 了 对 应 的 基本 面 获取 函数 : 


def get fundamentals n(table, symbols, end date, fields=None, 


filter-None,order by-None, count-1, df-False): 

其 中 ，table 是 对 应 的 表 名 ，field ZARA, order by 是 排序 方式 ， 如 果 有 一 些 需 要 过 滤 
的 字段 ， 可 以 使 用 filter 进行 字段 过 滤 。 

首先 看 本 模型 中 的 第 二 个 因子 一 一 NPG。 通 过 查 表 可 得 ， 第 一 个 需要 查询 的 字段 NPG 
在 掘 金 数据 库 中 的 字段 名 为 NPGRT， 其 在 deriv finance indicator 表 中 ， 因 此 根据 
get fundamentals n 函数 可 以 写成 如 下 形式 : 
get fundamentals(table-'deriv finance indicator', symbols-symbol list, 
start date-day time, 
end date-day time, fields-"NPGRT", df-True) 

需要 注意 的 是 ， 对 于 部 分 数据 有 可 能 会 产生 缺失 ， 因 此 在 读 取 时 需要 对 数据 的 数量 进行 
判断 ， 如 果 是 正常 读 取 ， 就 可 以 正常 结束 ， 而 当 数据 出 现 缺失 时 ， 可 使 用 默认 的 最 小 值 进行 
填充 ， 代 码 如 下 : 


.df = get fundamentals(table-'deriv finance indicator', symbols=symbol list, 
start date-day time, end date-day time, fields-"NPGRT", df-True) 


if len( df) == len(symbol list): 
df["NPG"] = df["NPGRT"] 
else: 


for number in range(len(symbol list)): 

Ey: 

.df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-day time, end date-day time, 
fields-"NPGRT") 

.NPG - tools.get data value( df, "NPGRT") 


df.iloc[number, 2] = _NPG[0] 
except: 
df.iloc[number, 2] = -999 
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这 里 首先 使 用 symbol list 批量 化 获取 数据 值 ， 之 后 判断 读 取 的 数据 有 没有 缺失 ， 如 果 产 
生 缺 失 ， 就 逐个 获取 对 应 的 因子 数据 ， 而 对 于 缺失 的 因子 数据 ， 使 用 -999 进行 填充 。 

前 面 介绍 了 第 二 个 因子 NPG 的 获取 ， 而 对 于 第 一 个 因子 EBITG 〈 息 税 前 收益 增长 
率 ) ， 掘 金 数据 表 中 并 没有 直接 给 出 ， 需 要 读者 对 数据 进行 处 理 ， 自 行 计 算得 出 ， 分 别 使 用 
本 期 的 EBITMARGIN (〈 息 税 前 利润 率 ) 与 上 期 的 值 计 算 ， 即 : 
EBITG = ((now EBITMARGIN - last EBITMARGIN) y last EBITMARGIN) 

对 于 不 同 的 数据 值 获取 方式 ， 气 金 同时 提供 了 不 同 的 基本 面 获取 函数 ， 代 码 如 下 : 


def get fundamentals n(table, symbols, end date, fields-None, 
filter-None,order by-None, count-1, df-False): 


get fundamentals n 函数 的 意思 是 查询 基本 面 财务 数据 中 每 个 股票 在 end_date 的 前 n 条， 
本 处 只 需要 获取 两 条 即 可 。 


for number in range(len(symbol list)): 

trys 
.df = get fundamentals n(table-'deriv finance indicator', 

symbols-symbol list[number], end date-day time, count-2, fields-"EBITMARGIN") 
now EBITMARGIN = _df[0] ["EBITMARGIN"] 
last EBITMARGIN = df[1]["EBITMARGIN"] 
EBITG = ((now EBITMARGIN - last EBITMARGIN) / last EBITMARGIN) 
df.iloc[number, 1] = EBITG 

except: 

df.iloc[number, 1] = -999 


字段 中 的 EBITG 分 别 取 了 本 期 和 上 期 的 值 ， 其 差 值 与 上 期 的 数据 比值 可 以 认为 是 所 需要 
的 息 税 前 利润 率 。 

取 全 部 因子 的 代码 如 下 : 

# symbol list = tools.read_MSCI() 


df = pd.DataFrame([]) 
df["symbol"] = symbol list 


df["EBITG"] = -999 

df["NPG"] - -999 

df["TAG"] = -999 4 MPG 取 不 到 ， 用 rac ht 
df["GPG"] - -999 

df["OPG"] - -999 

df["OCG"] - -999 

df["vol"] = 0 

+ 求 出 EBITG 


for number in range(len(symbol list)): 
try: 


.df = get fundamentals n(table-'deriv finance indicator', 
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symbols=symbol list[number], end date-day time, count-2, fields-"EBITMARGIN") 
now EBITMARGIN = _df[0] ["EBITMARGIN"] 
last EBITMARGIN = _df[1] ["EBITMARGIN"] 
EBITG = ((now EBITMARGIN - last EBITMARGIN) / last EBITMARGIN) 
df.iloc[number, 1] — EBITG 
except: 
df.iloc[number, 1] = -999 


* RNPG 
.df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 
start date-day time, end date-day time, fields-"NPGRT", df-True) 


if len( df) == len(symbol list): 
df["NPG"] — df["NPGRT" 
else: 
for number in range(len(symbol list)): 
try: 


.df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-day time, end date-day time, 
fields-"NPGRT") 

.NPG - tools.get data value( df, "NPGRT" 


df.iloc[number, 2] = _NPG[0] 
except: 
df.iloc[number, 2] = -999 


# 求 出 TAG 
.df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 
start date-day time, end date-day time, fields-"TAGRT", df-True) 


if len( df) -- len(symbol list): 
df["TAG"] = df["TAGRT" 
else: 
for number in range(len(symbol list)): 
try: 


.df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-day time, end date-day time, 
fields-"TAGRT") 

.NPG - tools.get data value( df, "TAGRT") 


df.iloc[number, 2] = _NPG[0] 
except: 
df.iloc[number, 2] = -999 


* Reps 
for number in range(len(symbol list)): 
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trys 
.df = get fundamentals n(table-'deriv finance indicator', 


symbols-symbol list[number], end date-day time, count-2, fields-"OPGPMARGIN") 


now EBITMARGIN = _df[0] ["OPGPMARGIN"] 
last EBITMARGIN = df[1]["OPGPMARGIN"] 
EBITG = ((now EBITMARGIN - last EBITMARGIN) / last EBITMARGIN) 


df.iloc[number, 4] = EBITG 
except: 
df.iloc[number, 4] 


1:999 


* KR OPG 
for number in range(len(symbol list)): 
GEVE 
.df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol list[number], end date-day time, count-2, fields-"OPPRORT" 


now EBITMARGIN = df[0] ["OPPRORT"] 
last EBITMARGIN = df[1]["OPPRORT"] 
EBITG = ((now EBITMARGIN - last EBITMARGIN) / last EBITMARGIN) 
df.iloc[number, 5] = EBITG 
except: 
df.iloc[number, 5] = -999 


* Roce 
for number in range(len(symbol list)): 
TEYS 
.df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol list[number], end date-day time, count=2, fields-"NCFPS") 
now EBITMARGIN = _df[0] ["NCFPS"] 
last EBITMARGIN = df[1]["NCFPS"] 
EBITG = ((now EBITMARGIN - last EBITMARGIN) / last EBITMARGIN) 
df.iloc[number, 6] = EBITG 
except: 
df.iloc[number, 6] = -999 


生成 的 因子 矩阵 如 图 6-7 所 示 。 
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symbol EBITG NPG TAG 
SHSE.600008 -999.0000  -1.0856 -7.7215 
SHSE.600008 -0.0696 -17.8317 19.6606 
SHSE.600009  -0.0718 28.6173 20.3458 
SHSE.600018 0.3434 222.1856 22.1764 
SHSE.600011 0.2523 86.9642 15.1118 
SHSE.600015 -999.0099 5.2328 1.3626 
SHSE.600016 -999.0000 32.6025 -6.8159 
SHSE.600018 -0.3022 12.8480 6.7102 
SHSE.600019 0.1064 16.9955 12.7369 
SHSE.600023 -0.3734 13.5005 7.2002 
SHSE.600025  -0.0086  -0.4916 2.5441 -6.2988 0.4431 
SHSE . 600028 0.3171 374.7468 8.5934 0.3757 -2.4729 
SHSE.600029 -0.0603 -11.6128 12.8822 -0.6878 90.6151 -1.4010 
SHSE.600038 -999.0000 -6.8955 20.4395 -0.7770 -0.0059 -1.2780 


图 6-7 ”部 分 数据 因子 矩阵 
可 以 看 到 ， 数 据 中 有 一 系列 的 -999， 主 要 是 存在 数据 的 缺失 问题 。 


3. 矩阵 因子 的 计算 与 排序 
对 于 生成 的 数据 集 ， 下 面 提取 出 对 应 的 数据 组 成 矩阵 ， 代 码 如 下 : 


f = df.dropna() 
df factor = df.iloc[:,1:] 


df factor - np.asmatrix(df factor) 
因为 第 一 个 数据 是 symbol， 在 计算 时 不 需要 ， 所 以 可 以 从 第 一 列 开始 存储 。 


-999.0000 -1.0856 -7.7215 -0.7566 0.0357 -1.2163 
-0.0696 -17.8317 19.6606 -0.7582 -0.2473 -0.1166 
-0.0718 28.6179 20.3458 -0.7122 -0.0216 -0.3339 
0.3434 222.1856 22.1764 -0.7143 0.2254 -1.7664 
0.2523 86.9642 15.1118 -0.6618 1.0049 -8.9287 
-999.0000 5.2328 1.3626 -0.7681 -0.0322 -0.9754 


下 面 对 生 成 的 矩阵 进行 因子 计算 。 在 本 策略 模型 中 ， 各 个 因子 对 收益 率 的 影响 可 以 认为 
越 大 越 好 ， 因 此 可 以 统一 地 将 全 部 权重 值 设 成 -1， 这 样 做 的 好 处 是 在 后 续 的 计算 中 ， 可 以 调 
用 默认 方法 将 值 从 小 到 大 进行 排列 。 当 然 ， 读 者 也 可 以 将 其 全 部 设置 成 +1， 只 需要 统一 规格 
即 可 。 


weight_mat = np.asmatrix (weight) 


OPG OCG 
0.0357 -1.2163 
-0.2473 -0.1166 
-0.0216 -0.3339 
0.2254 -1.7664 
1.0049 -8.9287 
-0.0322 -0.9754 
@.1798 -0.9932 
-0.2261 -1.3892 
0.2013 -0.9414 
-0.4635 -0.6455 


res = np.dot(df factor, weight mat) 
df["score"] = (res) 
df — (df.sort values(["score"])) 
对 于 矩阵 计算 ， 这 里 调用 了 NumPy 中 的 矩阵 计算 方法 ，res 就 是 最 终 计算 的 结果 ， 将 其 
重新 作为 一 个 因子 合并 到 df 数据 集中 ， 打 印 结果 如 图 6-8 所 示 。 
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symbol  EBITG NPG TAG — GPG OPG occ score 
©  SHSE.GO0000 -999.0000 -1.0856 -7.7215 -0.7566 0.0257 -1.2163 26, 72-9173 
1  SHSE.G00008 -0.0696 -17.8317 19.6606 -0.7582 -0.2473 -0.1166 es 
2 SHSE.600009 -0.0718 28.6179 20.3458 -0.7122 -0.0216 -0.3339 .6576 
3  SHSE.G00010 0.3434 222.1856 22.1764 -0.7143 0.2254 -1.7664 .6171 
4  SHSE.600011 0.2523 86.9642 15.1118 -0.6618 1.0049 -8.9287 .6115 
5  SHSE.600015 -999.0000 5.2328 1.3626 -0.7681 -0.0322 -@.9754 »4601 
6  SHSE.G80016 -999.0000 32.605  -6.8159 -0.6997 0.1790 -0.9932 pie 
7 SHSE.60018 -0.3022 12.8480 — 6.7102 -6.7977 -0.2261 -1.3802 > prea 
8  SHSE.G00019 0.1064 16.9055 12.7369 -0.7288 0.2013 -0.9414 -3855 
9  SHSE.600023  -0.3734 13.5005 7.2002 -0.8625 -0.4635 -0.6455 80 -4.3782 v 


图 6-8 ” 带 有 结果 的 因子 矩阵 
可 以 看 到 ， 这 里 对 于 不 同 的 标的 ， 综 合 获取 了 各 个 因子 后 ， 利 用 矩阵 计算 从 而 获得 了 一 
个 最 终 的 计算 值 。 下 面 对 生成 的 结果 根据 股票 的 最 终 得 分 进行 排序 。 


df = (df.sort values(["score"])) 
symbol list = [] 

for _ in df["symbol"].values: 
symbol list.append( ) 


pandas 中 有 专门 用 来 排序 的 函数 ，sort_values 是 根据 pandas 的 某 个 因子 进行 排序 。 
4. 核心 选 股 模型 的 编写 
核心 选 股 模型 的 代码 如 下 : 


def 成 长 模型 (index, now) : 
symbol list = tools.get symbol list (index,now) 


last day = get previous trading date ("SHSE",now) 
day time - last day 

#symbol list = tools.read MSCI() 

df = pd.DataFrame([]) 


df["symbol"] = symbol list 


df["EBITG"] - -999 
df["NPG"] - -999 

df["TAG"] = -999 #MPG 取 不 到 ， 用 Tac tH 
df["GPG"] - -999 

df["OPG"] - -999 

df["OCG"] - -999 

# 求 出 EBITG 


for number in range(len(symbol list)): 
try: 
.df = get fundamentals n(table-'deriv finance indicator', 


symbols-symbol list[number],end date-day time, count-2,fields-"EBITMARGIN") 


now EBITMARGIN = _df[0] ["EBITMARGIN"] 
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last EBITMARGIN = df[1]["EBITMARGIN"] 
EBITG = ((now EBITMARGIN-last EBITMARGIN)/last EBITMARGIN) 


df.iloc[number,1] = EBITG 
except:df.iloc[number,1] = -999 


PR NPG 
_df = get_fundamentals (table='deriv_finance_indicator', symbols=symbol list, 
start date-day time,end date-day time, fields-"NPGRT",df-True) 


if len( df) == len(symbol list): 
df["NPG"] = df["NPGRT"] 
else: 
for number in range(len(symbol list)): 
try: 


_df = get_fundamentals (table='deriv_finance_indicator', 
symbols=symbol_list [number], start_date=day_time, 
end_date=day time, fields="NPGRT") 
_NPG = tools.get data value( df,"NPGRT") 


df.iloc[number, 2] = _NPG[0] 
except: 
df.iloc[number, 2] = -999 


# 求 出 TAG 
_df = get fundamentals (table='deriv finance indicator', symbols=symbol list, 
start date=day time,end date=day time, fields="TAGRT",df=True) 


if len(_df) == len(symbol list): 
df["TAG"] = df["TAGRT" 
else: 
for number in range(len(symbol list)): 
try: 


.df = get_fundamentals (table='deriv finance indicator', 
symbols=symbol_list [number], start_date=day_time, 
end_date=day time, fields="TAGRT" 
_NPG = tools.get data value( df,"TAGRT") 


df.iloc[number, 2] = _NPG[0] 
except: 
df.iloc[number, 2] = -999 


# 求 GPG 
for number in range(len(symbol list)): 
try: 


.df = get fundamentals n(table-'deriv finance indicator', 


123 


symbols-symbol list[number],end date-day time, count=2, fields="OPGPMARGIN") 


now EBITMARGIN = _df[0] ["OPGPMARGIN"] 
last EBITMARGIN = _df[1] ["OPGPMARGIN"] 
EBITG = ((now_EBITMARGIN-last_EBITMARGIN) /last_EBITMARGIN) 


df.iloc[number,4] = EBITG 
except:df.iloc[number,4] = -999 


# 求 OPG 
for number in range(len(symbol list)): 
Cry: 
.df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol list[number],end date-day time, count-2,fields-"OPPRORT") 


now EBITMARGIN = df[0] ["OPPRORT"] 
last EBITMARGIN = df[1]["OPPRORT"] 
EBITG = ((now EBITMARGIN-last EBITMARGIN)/last EBITMARGIN) 
df.iloc[number,5] = EBITG 
except:df.iloc[number,5] - -999 
#2 occ 
for number in range(len(symbol list)): 
«ry 
.df - get fundamentals n(table-'deriv finance indicator', 
symbols-symbol list[number],end date-day time, count-2,fields-"NCFPS") 
now EBITMARGIN = _df[0] ["NCFPS"] 
last EBITMARGIN - df[1]["NCFPS"] 
EBITG = ((now EBITMARGIN-last EBITMARGIN)/last EBITMARGIN) 
df.iloc[number,6] - EBITG 
except:df.iloc[number,6] = -999 


f = df.dropna() 
df factor - df.iloc[:,1:] 


df factor - np.asmatrix(df factor) 


# 先 进行 列 归 一 化 ， 然 后 对 每 行进 行 标准 化 处 理 

df factor = preprocessing.MinMaxScaler().fit transform(df factor) 
weight = [[-1], [-1], [-1], [-1}, [-11; [-111 

weight_mat = np.asmatrix (weight) 

res = np.dot(df factor, weight mat) 


df["score"] = (res) 


df = (df.sort values(["score"]1)) 
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print (df) 

symbol list = [] 

for _ in df["symbol"].values: 
symbol list.append( ) 


return symbol list 


这 里 的 代码 段 成 长 模型 首先 解析 指数 的 构成 成 分 股 ， 之 后 根据 需要 对 所 有 的 成 分 股 进行 
排序 并 打分 ， 接 着 对 打分 的 结果 进行 排序 ， 返 回 经 过 排序 后 的 股票 列表 。 


6.3.2 ”使 用 模型 进行 回 测 

以 ROIC-NPG 两 个 指标 来 构建 成 长 模型 。 根 据 我 们 对 各 项 指标 的 重新 梳理 ， 现 将 ROIC 
列 为 质量 指标 ， 另 外 构建 了 EBITG、NPG 和 MPG。 一 个 最 简单 的 策略 就 是 每 日 买 入 排序 后 
的 股票 标的 前 N 名 ， 使 用 的 是 上 证 50 作为 股票 池 ， 核 心 选 股 代码 在 6.3.1 小 节 已 经 给 出 。 这 
里 为 了 简化 测试 ， 取 前 5 名 继续 排序 ， 代 码 如 下 : 

【程序 6-6】 
from 挖掘 成 长 import 成 长 模型 挖掘 成 长 伏 藏 as fun 


import os 


def init(context): 
schedule (schedule func-algo, date rule-'l1d', time rule-'09:31:00') 
context.index = "SHSE.000016" 


context.num = 5 


def algo(context): 
now — context.now 


last day - get previous trading date("SHSE", now) 
order close all() 


mor Bets BE BEAR 
_symbol list = fun. BK BUH (context.index, now) 
""" 核 心 选 股 代码 """ 
symbol list = [] 
for symbol in _symbol list: 
symbol list.append (symbol) 


# 取 前 多 少 个 标的 
target_list = symbol list[:context.num] # 无 黑 名 单 存在 ， 卖 掉 以 后 又 可 以 买 回 
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for symbol in target_list: 
order_target_percent (symbol=symbol, percent=1. / context.num, 
order type-OrderType Market, position side-PositionSide Long) 
def on backtest finished(context, indicator): 
print (indicator) 
if name == " main ^": 
run( 
strategy id-'9f53e15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'715f84a04a4574e2e77491d62f7c8bbc0c663b12', 
backtest start time-"2016-01-10 09:30:00", 
backtest end time-'2018-06-10 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 
) 


具体 结果 如 图 6-9 所 示 。 


10,000,000.007% 16.023.793.67 元 023793677. 000 628 kem M87% 1547% 161 1.00 567 E p 


Pam 


aaoo 
toon 


wr ibid eite ni tmi et toa lt stitit un {ite 


6-9 成 长 模型 回 测 结果 


从 图 6-9 可 以 看 到 回 测 结果 并 不 是 很 好 ， 因 为 这 里 省 略 了 部 分 选 股 策略 和 算法 ， 这 也 给 
读者 留 下 了 极 大 的 优化 空间 ， 希 望 读者 可 以 在 此 基础 上 做 出 更 改 。 
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5.4. Ee. 罗斯 曼 的 投资 模型 


华尔街 永远 不 缺 传奇 与 经 典 ， 对 于 纵横 华尔街 的 一 些 传奇 投资 人 ， 自 有 其 生存 与 发 展 之 
道 。 霍 华 。 罗 斯 曼 就 是 其 中 之 一 。 下 面 使 用 掘 金 API 重 现 其 投资 模型 和 方法 。 


641 震 华 罗斯 曼 简介 

1E E + Bp (Howard Rothman) 是 华尔街 著名 的 投资 分 析 公司 一 一 远见 投资 顾问 公司 

(Vision Investment Advisor, VIA) 的 首席 投资 分 析 师 和 总 裁 (1997~2002 年 ) ， 也 曾 为 美国 
折扣 券商 协会 (the National Introducing Brokers Association) 的 主席 及 创始 会 员 。 

他 于 1990 年 一 月 被 折扣 券商 会 员 (Introducing Broker Membership) 推荐 进入 国家 期 货 协 
ZEFA (the National Futures Association Board of Directors) 担任 董事 ， 并 连任 达 3 Jl. H 
前 为 期 货 产 业 协会 的 纪律 委员 会 (the Law and Compliance Division of the Futures Industry 
Association) 会 员 。 

霍 华 。 罗 斯 曼 的 投资 方式 强调 “在 正确 的 时 机 买 入 并 紧 握 持 股 ” 与 “选择 优质 股票 并 长 
期 持 有 ” ( “buy right and hold tight” and “buy strong and hold long” ) 。 

他 认为 只 要 在 适当 的 价格 买 入 稳定 且 持续 成 长 获 利 的 股票 ， 不 需要 经 常 更 换 持 股 ， 投 资 
报酬 率 必然 指 日 可 期 。 由 此 可 见 ， 霍 华 。 罗 斯 曼 的 投资 哲学 虽然 简单 ， 却 充分 显现 了 首席 投 
资 分 析 师 的 谨慎 风范 。 


642 霍 华 。 罗 斯 曼 的 投资 模型 

霍 华 。 罗 斯 曼 强 调 其 投资 风格 在 于 为 投资 大 众 建立 均衡 且 以 成 长 为 导向 的 投资 组 合 。 其 
选 股 方式 偏好 大 型 股 、 管 理 良好 且 领 导 产业 趋势 以 及 产生 实际 报酬 率 的 公司 ， 不 仅 重视 公司 
产生 现金 的 能 力 ， 也 强调 有 稳定 成 长 能 力 的 重要 性 。 

下 面 介 绍 几 个 要 点 。 

COD 总 市 值 大 于 等 于 50 亿美 元 。 

(2) 良好 的 财务 结构 。 

G) 较 高 的 股东 权益 报酬 。 

(4) 拥有 良好 且 持 续 的 自由 现金 流量 。 

C5) 稳定 持续 的 营 收成 长 率 。 

(6) 优 于 比较 指数 的 鼻 余 报酬 率 。 


将 其 投资 模型 用 程序 语言 组 织 起 来 : 


(1) 总 市 值 三 市 场 平均 值 *1.0。 
(2) 最 近 一 季 流 动 比 率 宇 行业 平均 值 。 
G) 近 四 季 股 东 权 益 报 酬 率 三 市 场 平均 值 。 
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(4) 最 近 三 年 CPS>0 且 最 近 四 季 CPSZ0. 
(5) 近 四 季 营 收成 长 率 为 6% 至 30%. 
(6) 近 四 季 鼻 余 成 长 率 为 8% 至 5090. 


6.4.8 WEE. 罗斯 曼 模 型 的 分 析 


对 于 组 织 起 来 的 投资 模型 并 不 能 直接 使 用 ， 最 好 的 方式 是 根据 已 有 的 条 件 逐步 分 析 和 进 
{T FH. 

投资 模型 共有 6 个 条 件 ， 其 中 条 件 5 和 条 件 6 可 以 认为 是 自身 的 判定 条 件 ， 可 以 首先 被 
选择 或 剔除 。 

代码 如 下 : 

+ (5) 近 四 季 营 收成 长 率 为 6% 至 30%。 由 高 到 低 NPGRT 

+ (6) 近 四 季 到 余 成 长 率 为 8% 至 50%。 净利 润 由 高 到 低 TAGRT 

df = get fundamentals(table-'deriv finance indicator', symbols-symbol list, 


start date-now, end date-now, fields-"NPGRT,TAGRT", filter-"NPGRT » 6 and 
NPGRT « 30 and TAGRT » 8 and TAGRT « 50", df-True) 


symbol list = [] 
for _ in df["symbol"].values: 
symbol list.append( ) 


接着 对 剩余 的 4 个 条 件 进 行 分 析 ， 从 字面 上 看 ， 这 4 个 条 件 均 为 行业 或 者 股票 标的 池 之 
间 的 比较 ， 因 子 可 以 共同 作为 一 个 选择 形式 分 析 。 更 为 细 分 地 看 ， 对 于 条 件 1 和 条 件 2， 一 
般 情 况 下 ， 总 市 值 和 流动 比率 并 没有 特定 的 要 求 ， 也 就 是 说 ， 并 不 需要 对 其 进行 详细 的 比 
较 ， 因 此 可 以 作为 一 个 单独 的 选 股 条 件 进 行 选 择 。 

代码 如 下 : 


+O) 总 市 值 三 市 场 平均 值 *1 .0 

* (2) 最 近 一 季 流 动 比 率 市 场 平均 值 

df = get fundamentals (table='trading derivative indicator', 
symbols=symbol list, start date=now, end date=now, fields="TOTMKTCAP, PCTTM", 
df=True) 

TOTMKTCAP mean = df["TOTMKTCAP"] .mean () 

PCTTM mean = df["PCTTM"].mean() 
df = df[df["TOTMKTCAP"] > TOTMKTCAP mean] 
df = df[df["PCTTM"] > PCTTM mean] 
symbol list = [ 
for in df["symbol"].values: 

symbol list.append( ) 


至 于 条 件 3 和 条 件 4， 可 以 认为 是 对 不 同 股票 标的 之 间 的 比较 ， 因 此 可 以 对 其 进行 传统 
的 多 因子 排序 ， 默 认 其 值 越 大 越 好 ， 代 码 如 下 : 


_df = get fundamentals(table-'deriv finance indicator', symbols=symbol list, 
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start_date=now, 
end_date=now, fields="ROEAVGCUT, FCFEPS", df=True) 


if len( df) == len(symbol list): 
df["ROEAVGCUT"] = df["ROEAVGCUT"] 
df["FCFEPS"] = df["FCFEPS"] 
else: 
for number in range (len (symbol list)): 
try: 

_df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-now, end date-now, 
fields-"ROEAVGCUT, FCFEPS") 

.factor value - tools.get data value( df, "ROEAVGCUT") 

df.iloc[number, 1] = factor value[0] 


factor value - tools.get data value( df, "FCFEPS") 
df.iloc[number, 2] = factor value[0] 
except: 
df.iloc[number, 1] = np.mean (df["ROEAVGCUT"]) 
df.iloc[number, 2] - np.mean(df["FCFEPS"]) 


最 后 对 求 出 的 条 件 3 和 条 件 4 进行 排序 ， 这 里 还 是 使 用 矩阵 化 乘积 的 方式 进行 。 
上 霍 华 。 罗 斯 曼 的 完整 选 股 模型 如 下 : 


def get symbol list(index, now): 
_symbol_ list = tools.get_symbol list (index, now) 
symbol list = [] 
bank list = tools.get symbol list ("SHSE.000947", now) 
stock company list = tools.get symbol list("SZSE.399975", now) 


for in symbol list: 
if ( not in bank list) and ( not in stock company list): 
symbol list.append( ) 

# (1) 总 市 值 过 市 场 平 均值 *1.0 

(2) 最近 一 季 流 动 比 率 市 场 平均 值 
df = get fundamentals (table='trading derivative indicator', 

symbols=symbol list, start date=now, end date=now, 
fields="TOTMKTCAP, PCTTM", df=True) 

TOTMKTCAP mean = df["TOTMKTCAP"] .mean () 
PCTTM mean = df["PCTTM"] .mean() 
df = df[df["TOTMKTCAP"] > TOTMKTCAP mean] 

f = df[df["PCTTM"] > PCTTM mean] 


symbol list = [] 
for in df["symbol"].values: 
symbol list.append( ) 


+ (5) 近 四 季 营 收成 长 率 为 6% 至 30%. 由 高 到 低 NPGRT 
+ (6) 近 四 季 春 余 成 长 率 为 8% 至 50%. 净利 润 由 高 到 低 TAGRT 


df = get fundamentals(table-'deriv finance indicator', symbols=symbol list, 


Start date-now, end date-now, 
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fields-"NPGRT,TAGRT", filter="NPGRT > 6 and NPGRT < 30 
and TAGRT > 8 and TAGRT < 50", df=True) 


symbol list = [] 
for _ in df["symbol"].values: 
symbol list.append( ) 

df = pd.DataFrame([]) 

df["symbol"] = symbol list 

df["ROEAVGCUT"] = -999 

df["FCFEPS"] — —999 

.df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 

start date-now, 

end date-now, 
fields-"ROEAVGCUT,FCFEPS", df-True) 


if len( df) == len(symbol list): 
df["ROEAVGCUT"] = df["ROEAVGCUT"] 
df["FCFEPS"] = df["FCFEPS"] 
else: 
for number in range(len(symbol list)): 
try: 
.df - get fundamentals(table-'deriv finance indicator', 
symbols-symbol list[number], 
start date-now, 
end date-now, fields-"ROEAVGCUT,FCFEPS") 
factor value - tools.get data value( df, "ROEAVGCUT" 
df.iloc[number, 1] = factor value[0] 


.factor value - tools.get data value( df, "FCFEPS") 
df.iloc[number, 2] = factor value[0] 

except: 
df.iloc[number, 1] 
df.iloc[number, 2] 


np.mean (df ["ROEAVGCUT"]) 
np.mean (df ["FCFEPS"]) 


f = df.dropna() 
dE factor = df-düoche che) 
df_factor = np.asmatrix(df_factor) 


+ 先进 行列 归 一 化 ， 然 后 在 对 每 行进 行 标准 化 处 理 


df factor = preprocessing.MinMaxScaler().fit transform(df factor) 


weight = [[-1], [-1]] 

weight mat = np.asmatrix (weight) 
res = np.dot(df factor, weight mat) 
df["score"] = (res) 


df = (df.sort values(["score"])) 

symbol list — [] 

for in df["symbol"].values: 
symbol list.append( ) 
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return symbol list 


请 读者 自行 建立 选 股 框架 进行 验证 。 


F ove 
ie 


BERR RALST ATES 。 罗斯 曼 投 资 模型 的 理解 ， 读 者 震 要 通过 自身 的 消化 


和 理解 做 出 合适 自己 的 模型 。 例 如 ， 作 者 在 分 析 时 使 用 1、2、5、6 作为 选择 条 件 ，3 和 : 
4 作为 多 因子 排序 条 件 ， 而 完全 可 以 将 1.2. 3. A 作为 多 因子 排序 条 件 共同 进行 下 一 步 : 
的 选取 。 这 点 请 读者 自行 完成。 E 


5.5 we 


本 章 介绍 了 量化 选 股 中 最 基础 的 多 因子 选 股 策略 ， 从 一 个 简单 的 例子 介绍 了 因子 的 选择 
和 对 一 个 股票 标的 产生 的 影响 。 之 后 介绍 了 使 用 IC 值 计 算 某 个 时 间 段 的 因子 与 下 一 个 时 间 段 
股票 收益 之 间 的 关系 ， 作 用 是 通过 比较 和 计算 不 同 的 因子 对 下 一 个 时 间 段 股票 收益 的 影响 ， 
从 而 选 出 较为 适合 的 相关 因子 。 

因子 的 选取 方法 有 很 多 ， 但 是 万 变 不 离 其 宗 ， 其 根本 就 是 需要 找到 当前 的 因子 与 下 期 股 
票 的 涨 势 相互 之 间 的 关系 ， 这 点 请 读者 牢记 。 

成 长 模型 是 读者 接触 到 的 第 一 个 较为 完整 的 选 股 模型 ， 核 心 是 使 用 特定 的 因子 综合 起 来 


计算 最 终 因子 得 分 ， 这 是 


有 是 使 用 等 权 法 计算 的 ， 也 是 最 为 传统 的 方法 。 而 在 回 测 框架 上 ， 使 


用 的 是 最 为 简单 的 模型 框架 ， 选 择 模型 时 没有 考虑 止 损 和 止 鼻 相 关 的 影响 。 而 这 些 都 是 在 现 
实 中 需要 极其 注意 的 地 方 。 

本 章 介绍 了 多 因子 入 门 的 知识 ， 主 要 是 基本 面 选 股 ， 但 是 在 实际 使 用 时 ， 除 了 基本 面 因 
子 外 ， 还 有 很 多 技术 面 因子 ， 这 点 将 在 下 一 章 向 读者 介绍 。 
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28 7 E 


第 7 章 
带 技 术 指 标的 多 因子 策略 


多 因子 策略 除了 基本 面 因 子 外 ， 还 有 大 量 的 技术 面 因子 。 

技术 面 因子 作为 多 因子 策略 的 重要 组 成 部 分 ， 己 经 越 来 越 多 地 被 量化 基金 和 程序 设计 人 
员 所 使 用 。 其 主要 作用 是 作为 基本 面 选 股 的 一 个 重要 补充 ， 解 决 了 基本 面 选 股 策略 中 对 买 入 
时 机 的 选择 有 所 欠缺 的 问题 。 

技术 面 选 股 和 基本 面 选 股 是 一 个 问题 的 不 同方 面 ， 它 们 共同 补充 从 而 构成 了 多 因子 选 股 
的 完整 策略 ， 如 图 7-1 所 示 。 


图 7-1 完整 的 多 因子 选 股 策略 


技术 面 多 因子 介绍 


相对 于 基本 面 因子 ， 技 术 面 因子 的 设计 和 组 合 是 多 种 多 样 的 ， 甚 至 可 以 说 是 天 马 行 空 、 
无 奇 不 有 的 。 因 为 基本 面 因子 本 质 来 源 于 公司 的 财务 、 供 销 、 利 润 以 及 产 出 等 ， 而 技术 面 因 
子 的 组 合计 算 更 多 涉及 数学 、 统 计 等 。 本 节 主 要 介绍 一 些 常用 的 数学 技术 性 指标 。 


7.1.1 101 个 技术 因子 
2015 年 12 A, WorldQuant LLC 公布 了 101 个 阿尔 法 表达 式 〈 见 图 7-2) ， 并 声称 其 中 
80% 的 因子 仍然 在 实 盘 中 使 用 。 国 内 众多 量化 爱好 者 如 获 至 宝 ， 蜂 拥 实现 并 验证 其 因子 的 有 
虽然 从 检验 结果 来 看 ， 公 布 的 大 部 分 因子 在 中 国 股市 的 效果 平平 或 已 失效 ， 但 是 其 因子 


的 构造 形式 却 值得 深入 研究 。 论 文中 说 到 ， 目 前 量化 交易 中 使 用 的 因子 数量 早已 成 百 上 干 ， 
甚至 达到 了 数 百 万 的 数量 级 。 这 已 远 远 不 是 通过 人 工 搜索 并 试验 有 效 因 子 所 能 企及 的 。 

也 就 是 说 ， 如 何 通过 机 器 实现 这 些 阿 尔 法 因子 的 挖掘 、 测 试 和 应 用 才 是 更 有 意义 的 ， 也 
是 大 势 所 趋 。 
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"There are two kinds of people in this world: 
Those seeking happiness, and bullfighters." 
(Zura Kakushadze, ca. early '90s)* 


Abstract 


We present explicit formulas — that are also computer code — for 
101 real-life quantitative trading alphas. Their average holding 
period approximately ranges 0.6-6.4 days. The average pair-wise 
correlation of these alphas is low, 15.9%. The returns are strongly 
correlated with volatility, but have no significant dependence on 
turnover, directly confirming an earlier result based on a more 
indirect empirical analysis. We further find empirically that 
turnover has poor explanatory power for alpha correlations. 


Alpha#1: (rank(Ts ArgMax(SignedPower(((returns « 0) ? stddev(returns, 20) : close), 2.), 5)) - 
0.5) 


Alpha#2; (-1 * correlation(rank(delta(log(volume), 2)), rank(((close - open) / open)), 6)) 
Alpha#3: (-1 * correlation(rank(open), rank(volume), 10)) 

Alpha#4: (-1 * Ts Rank(rank(low), 9)) 

Alpha#s: (rank((open - (sum(vwap, 10) / 10))) * (-1 * abs(rank((close - vwap))))) 
Alpha#6: (-1 * correlation(open, volume, 10)) 


Alphail7: ((adv20 < volume) ? ((-1 * ts rank(abs(delta(close, 7)), 60)) * sign(delta(close, 7))) : (-1 
^) 


图 7-2 101 个 技术 选 股 因子 
有 兴趣 的 读者 可 以 找 文章 的 原文 来 阅读 ， 本 书 只 实现 其 中 3 个 因子 ， 目 的 是 给 读者 一 个 
大 概 的 引导 ， 起 到 抛砖引玉 的 作用 。 
1. 因子 16 : 5 日 内 最 高 值 与 量 之 间 的 相关 系数 的 倒数 
其 代码 如 下 : 


def alphal6(symbol,now) : 


133 


data = history _n(symbol=symbol, frequency="1d",end_time=now, count=5 
,tields="close, volume", df=True) 

vloume = data["volume"].values 

close = data["close"].values 

corr = np.corrcoef (vloume,close) 


return -corr 


其 中 的 data 是 获取 数据 后 生成 的 一 个 数据 表 ，volume 和 close 是 其 中 对 应 的 数据 。 在 获 
取 数据 后 ， 调 用 NumPy 计算 两 个 数据 列 对 应 的 相关 系数 并 返回 相关 系数 的 倒数 。 


2. 因子 53 : ((close - low) - (high - close)) / ( (close - low) 的 9 日 之 前 的 值 -当前 值 ) 
其 代码 如 下 : 


def alpha53 (symbol,now): 

last day = get previous trading date("SHSE",now) 

data = history n(symbol-symbol, frequency="1d", end time-last day, count=9, 
fields-"high,low,close", df-True) 

high = data["high"].values 

low = data["low"].values 

close - data["close"].values 

result = (2 * close[-1] - high[-1] - low[-1])/(high[-1] - low[-1]) 

return result 


这 里 需要 注意 的 是 ， 对 于 需要 计算 的 序列 ， 其 中 的 日 期 是 至 关 重要 的 ， 此 因子 的 计算 是 
采用 昨天 的 收盘 价 与 9 日 前 的 价差 进行 比较 ， 因 此 使 用 的 日 期 为 上 一 个 交易 日 为 宜 。 

顺便 说 一 下 ， 在 这 里 可 能 是 读者 第 一 次 接触 到 未 来 函数 这 个 概念 ， 因 为 在 回 测 时 一 般 是 
默认 计算 上 一 个 交易 日 的 买卖 点 ， 因 此 建议 读者 在 使 用 时 使 用 last_day。 这 样 能 够 较 好 地 防 
止 有 未 来 函数 参与 回 测 中 。 


3. 因子 78 : 对 股票 过 去 5 天 的 成 交 量 和 最 高 价 进行 排名 ， 再 取 相关 系数 
其 代码 如 下 : 


from scipy.stats import rankdata 


def alpha53 (symbol,now): 

last day = get previous trading date("SHSE", now) 

data = history n(symbol-symbol, frequency="1d", end time-last day, count=5, 
fields-"volume,high", df-True) 

high = data["high"].values 

volume = data["low"].values 

high rank = rankdata (high) 

volume rank = rankdata (volume) 

corr = np.corrcoef (high rank,volume rank) 


return corr 
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这 里 需要 说 明 的 是 ， 在 scipy 工具 包 中 的 rankdata 函数 用 以 对 数据 按 从 大 到 小 的 顺序 进 
行 排序 ， 之 后 再 对 排序 后 的 数据 计算 其 相关 系数 。 
除 此 之 外 还 有 不 少 技术 因子 ， 见 表 7-1。 


表 7-1 其 他 技术 因子 


流动 性 


STOM 月 度 平均 换 手 率 : 最 近 一 个 月 的 交易 量 /流通 股 数 

STOQ 季度 平均 换 手 率 : 最 近 一 季度 的 交易 量 / 流 通 股 数 

STOS 半年 平均 换 手 率 : 最 近 半 年 的 交易 量 /流通 股 数 

STOA 年 度 平 均 换 手 率 : 最 近 一 年 的 交易 量 /流通 股 数 

STOM bana | Barma 因子 : ARA In (22%), WAAR, sS t 日 流动 市 什 
STOQ barra | Barra 因子 : ARA MGX exp(STOM,)], T=63 个 交易 日 

STOA barra | Barra AF: ARA In EL; expGTOMO], T=244 个 个 交易 日 

Ins 机 构 持 股 比例 :; 机 构 持 股 变动 /总 股本 

Ins_c 机 构 持 股 比例 变动 

Size 总 市 值 

non-linear- Bara 因子 : 中 等 市 值 ， 将 总 市 值 的 对 数 与 总 市 值 立方 的 对 数 回归 得 到 残 差 ， 
size 再 对 残 差 做 标准 化 处 理 

Market cap 流通 市 值 

MSM 一 个 月 换 手 率 变动 : 最 近 1 个 月 换 手 率 /最 近 1 年 换 手 率 

MSQ 季度 换 手 率 变动 : 最近 3 个 月 换 手 率 /最 近 1 年 换 手 率 

MSS 半年 换 手 率 变动 : 最 近 6 个 月 换 手 率 /最 近 1 年 换 手 率 

RSTR bara | Bara 因子 ， Yitw,[n(l+7)], L=21, T=500, 33848 120 A 
RSTR m24 TH wn +r) L=1, T=240, 33838 120 日 

RSTR m12 Twn(145). L=1, T=240, #3 60 H 

RSTR m6 TH win +r) L=1, T=120, 3388830 A 

RSTR m3 TU wn(1*5). L=1, T=60, X388 15 A 

RSTR ml T wn(1*5). L=1, T=20, X3885H 

RS 1 最 新 收盘 价 /21 个 交易 日 前 收盘 价 

RS 3 最 新 收盘 价 /63 个 交易 日 前 收盘 价 

RS 6 最 新 收盘 价 /126 个 交易 日 前 收盘 价 

RS 12 最 新 收盘 价 /252 个 交易 日 前 收盘 价 

ie Alpha 系数 ， 个 股 收益 率 序列 与 沪 深 300 指数 收益 率 序列 以 半衰期 指数 加 权 ， 


得 到 Alpha 系数 ， 半 衰 期 为 60 H 
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DASTD Barra 因子 ， 年 度 平均 波动 率 ， 累 计 日 波动 率 以 半衰期 指数 加 权 ， 半 衰 期 为 40 A 
CMRA Barra 因子 ， 年 度 收 益 率 波动 


Barra 因子 ，sigma， 个 股 收益 率 序列 与 沪 深 300 指数 收益 率 序列 以 半衰期 指数 
加 权 ， 得 到 残 差 ， 对 残 差 求 标准 差 得 到 sigma， 半 衰 期 为 60 日 


Bara 因子 ， 贝 塔 系数 ， 个 股 收益 率 序列 与 沪 深 300 指数 收益 率 序列 以 半衰期 
指数 加 权 ， 得 Beta 系数 ， 半 衰 期 为 60 日 


Yieldvol 1 月 度 日 收益 率 波动 率 ， 一 个 月 日 收益 率 标准 差 
Yieldvol 3 季度 日 收益 率 波动 率 ; 三 个 月 日 收益 率 标准 差 
波动 率 | Yieldvol 3 半年 日 收益 率 波动 率 ， 半 年 日 收益 率 标准 差 

High low_1 | 月 度 股价 波动 ， 最 高 价 /最 低 价 〈 最 近 一 个 月 内 价格 》 
High low 3 | 季度 股价 波动 ， 最 高 价 /最 低 价 〈 最 近 三 个 月 内 价格 
High low 6 | 半年 股价 波动 ， 最 高 价 /最 低 价 (最 近 六 个 月 内 价格 
High low_12 | 全 年 股价 波动 ， 最 高 价 /最 低 价 ( 最 近 十 二 个 月 内 价格 


HSIGMA 


Beta 


VOL_1 成 交 量 月 度 波动 率 ，1 月 波动 率 标准 差 
VOL 3 成 交 量 季度 波动 率 ，3 月 波动 率 标准 差 
VOL 6 成 交 量 半年 波动 率 ，6 月 波动 率 标准 差 


VOL 12 成 交 量 年 度 波动 率 ，12 月 波动 率 标准 差 


7.1.2 基于 Talib 的 技术 因子 重 写 

Talib 库 有 很 多 现成 的 工具 和 计算 工具 ， 但 是 某 些 技术 指标 的 确定 和 国内 还 是 有 差别 
的 ， 例 如 MACD 和 RSI 等 函数 。 在 这 里 按 国 内 的 指标 重 写 了 部 分 函数 ， 方 便 读者 在 回 测 
时 使 用 。 


1. SMA 简单 移动 平均 
算术 移动 平均 线 是 简单 而 普遍 的 移动 平均 线 。 平 均线 是 指 算术 平均 数 ， 计 算 方法 为 一 组 
数字 相 加 ， 除 以 该 组 数据 的 组 成 个 数 ， 其 中 每 一 个 给 定时 限 在 计算 平均 值 时 的 权重 均 相 等 。 


def SMA CN(close, timeperiod) : 


return reduce(lambda x, y: ((timeperiod - 1) * x + y) / timeperiod, close) 


2. RSI 指标 


RSI 是 根据 一 定时 期 内 上 涨 点 数 和 涨 跌 点 数 之 和 的 比率 制作 出 的 一 种 技术 曲线 ， 能 够 反 
映 出 市 场 在 一 定时 期 内 的 景气 程度 。RSI 由 威 尔 斯 。 威 尔 德 (Welles Wilder) 最 早 应 用 于 期 
货 买 卖 ， 后 来 人 们 发 现在 众多 的 图 表 技术 分 析 中 ， 强 弱 指 标的 理论 和 实践 极其 适合 股票 市 场 
的 短线 投资 ， 于 是 被 用 于 股票 升 跌 的 测量 和 分 析 中 。 

该 分 析 指 标的 设计 是 以 三 条 线 来 反映 价格 走势 的 强 弱 的 ， 这 种 图 形 可 以 为 投资 者 提供 操 
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作 依据 ， 非 常 适合 做 短线 差价 操作 。 


def RSI_CN(close, timeperiod): 

diff = map(lambda x, y: x - y, close[1:], close[:-1]) 

diffGt0 = map (lambda x: 0 if x < 0 else x, diff) 

diffABS = map(lambda x: abs(x), diff) 

diff = np.array (diff) 

diffGt0 = np.array(diffGt0) 

diffABS = np.array(diffABS) 

diff = np.append(diff[0], diff) 

diffGtO = np.append(diffGtO[0], diffGt0) 

diffABS = np.append(diffABS[0], diffABS) 

rsi = map(lambda x: SMA CN(diffGtO[:x], timeperiod) / SMA CN(diffABS[:x], 
timeperiod) * 100, 

range(1, len(diffGtO) + 1)) 


return np.array (rsi) 


3. KDJ 指标 


KDJ 指标 又 叫 随机 指标 ， 是 一 种 相当 新 颖 、 实 用 的 技术 分 析 指 标 ， 它 起 先 用 于 期 货 市 场 
的 分 析 ， 后 被 广泛 用 于 股市 的 中 短期 趋势 分 析 ， 是 期 货 和 股票 市 场 上 最 常用 的 技术 分 析 工 
He 

随机 指标 KDI 一 般 用 于 股票 分 析 的 统计 体系 ， 根 据 统计 学 原理 ， 通 过 一 个 特定 的 周期 
( 常 为 9 日 、9 周 等 ) 内 出 现 过 的 最 高 价 、 最 低 价 及 最 后 一 个 计算 周期 的 收盘 价 及 这 三 者 之 间 
的 比例 关系 ， 来 计算 最 后 一 个 计算 周期 的 未 成 熟 随 机 值 RSV， 然 后 根据 平滑 移动 平均 线 的 方 
法 来 计算 玉 值 、D 值 与 J 值 ， 并 绘 成 曲线 图 来 研判 股票 走势 。 
def KDJ CN(high, low, close, fastk_period, slowk period, fastd period): 


kValue, dValue - talib.STOCHF(high, low, close, fastk period, 
fastd period-1, fastd matype-0) 


kValue - np.array(map(lambda x: SMA CN(kValue[:x], slowk period), range(1, 
len(kValue) * 1))) 

dValue - np.array(map(lambda x: SMA CN(kValue[:x], fastd period), range(1, 
len(kValue) + 1))) 


jValue = 3 * kValue - 2 * dValue 


func = lambda arr: np.array([0 if x < 0 else (100 if x > 100 else x) for x 


in arr]) 


kValue = func(kValue) 
dValue - func (dValue) 
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jValue = func(jValue) 


return kValue, dValue, jValue 
4. MACD 指标 


MACD 称 为 指数 平滑 移动 平均 线 ， 是 从 双 指数 移动 平均 线 发 展 而 来 的 ， 由 快 的 指数 移动 
平均 线 (EMA12) 减 去 慢 的 指数 移动 平均 线 (EMA26) 得 到 快 线 DIF， 再 用 “2x( 快 线 DIF- 
DIF 的 9 日 加 权 移动 均线 DEA)” 得 到 MACD 柱 。 

MACD 的 意义 和 双 移 动 平均 线 基本 相同 ， 即 由 快 、 慢 均线 的 离散 、 聚 合 表征 当前 的 多 空 
状态 和 股价 可 能 的 发 展 变化 趋势 ， 但 阅读 起 来 更 方便 。 当 MACD 从 负数 转向 正 数 时 ， 是 买 
的 信号 。 当 MACD 从 正 数 转向 负数 时 ， 是 卖 的 信号 。 

当 MACD 以 大 角度 变化 ， 表 示 快 的 移动 平均 线 和 慢 的 移动 平均 线 的 差距 非常 迅速 地 拉 
开 ， 代 表 一 个 市 场 大 趋势 的 转变 。 


def MACD CN(close, fastperiod = 12, slowperiod = 26, signalperiod = 9): 
macdDIFF, macdDEA, macd = talib.MACDEXT (close, fastperiod-fastperiod, 
fastmatype=1,slowperiod=slowperiod, slowmatype-1, signalperiod-signalperiod, 

signalmatype=1) 
macd = macd * 2 


return macdDIFF, macdDEA, macd 


下 面 使 用 MACD 指标 对 股票 进行 买卖 ， 代 码 如 下 : 
【程序 7-1】 


import numpy as np 

from gm.api import * 

import os 

from tools import Talib CN 基于 Talib 实现 国内 行情 软件 一 致 as talib cn 


def init(context): 
Schedule(schedule func-algo, date rule='ld', time_rule='09:31:00') 


context.index = "SHSE.000300" 


def algo(context): 
now = context.now 
last day = get previous trading date("SHSE", now) 


data — 
history n(context.index, frequency="1d", count=30,end_time=last_day, fields="clos 
e", df=True) 

close = data["close"].values 

macdDIFF, macdDEA, macd = talib cn.MACD CN(close) 


if macd[-1] > 0 and macd[-2] < 0: 
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order target percent(symbol-context.index, percent=1, 
order type-OrderType Market, 
position side-PositionSide Long) 
elif macd[-1] « 0 and macd[-2] » 0: 
order target percent (symbol-context.index, percent=0, 
order type-OrderType Market, 
position side-PositionSide Long) 


def on backtest finished(context, indicator): 
print (indicator) 
if name == " main ": 
run( 
strategy id-'9f53el5f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'715f84a04a4574e2e771491d62f7c8bbc0c663b12', 
backtest start time-'2016-01-05 09:30:00', 
backtest end time-'2018-06-23 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 


) 
这 里 的 核心 程序 是 使 用 MACD 对 收盘 价 进行 判定 ， 当 MACD REF 0 RI SCA, 4 
MACD 下 穿 0 线 时 卖 出 ， 而 采用 的 股票 对 象 是 沪 深 300 指数 ， 这 样 可 以 另类 地 作为 一 种 测试 
择 时 的 判定 条 件 。 
结果 如 图 7-3 所 示 。 


图 7-3 基于 自 定义 MACD 的 择 时 
可 以 看 到 ， 基 于 自 定义 的 MACD 能 够 在 一 定 程度 上 做 到 择 时 ， 但 是 数据 并 不 值得 使 
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用 ， 可 能 无 论 是 Talib 自 带 的 MACD 还 是 自 定 义 的 MACD， 最 好 都 不 要 使 用 自 带 的 默认 
参数 。 


7.1.3 一 个 基于 放量 技术 因子 策略 的 回 测 
下 面 介绍 一 个 放量 策略 ， 这 是 完全 基于 放量 策略 对 股票 池 进 行 轮 动 选 股 的 策略 ， 对 过 去 
14 天 收盘 价 标准 差 小 于 0.05 的 股票 进行 个 股 买 入 。 


1. 股票 池 获取 的 函数 


对 于 多 股票 的 监控 ， 首 先 需要 建立 股票 池 ， 这 里 提供 对 指数 进行 解析 ， 提 取 对 应 构成 的 
成 分 股 ， 代 码 段 如 下 : 


def get symbol list(index,now): 


try: 
symbol list = get_history_constituents (index=index, 
start date-now) [0] .get ("constituents") .keys() 
symbol list not suspended = get history instruments (symbols=symbol list, 
start date-now, end date-now) 
symbol list = [item['symbol'] for item in symbol list not suspended if 


not item['is suspended']] 


_symbol list = symbol list 
symbol list - [] 
for in symbol list: 
symbol list.append( ) 
except:print (index) 
return symbol list 
首先 使 用 get history constituents 函数 获取 指数 的 历史 成 分 股 ， 之 后 判断 当时 没有 停牌 的 
股票 。 而 symbol list 是 作为 存放 的 股票 列表 ， 重 新 通过 一 个 检索 将 数据 读 出 到 symbol list 中 
并 返回 。 
当然 ， 读 者 也 可 以 自行 建立 待 测 股票 池 。 
2. 选 股 买 入 策略 的 编写 
下 面 对 选 股 策略 进行 编写 。 在 这 里 的 核心 是 对 过 去 14 天 收盘 价 标准 差 小 于 0.05 的 股票 
进行 个 股 买 入 。 
其 代码 如 下 : 


data = 
history n(symbol, frequency="1d", fields="close",count=14,end time=last day) 


close = tools.get data value (data, "close") 
std = np.std(close) 
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这 里 需要 判定 标准 差 小 于 0.05. 
3. 整体 策略 的 编写 


下 面 对 整体 策略 进行 编写 ， 除 了 买 入 策略 外 ， 还 有 卖 出 策略 ， 在 这 里 需要 不 停 地 对 股票 
进行 判断 ， 检 测 当 时 的 股票 价格 是 否 符合 卖 出 条 件 。 
本 策略 中 ， 卖 出 条 件 为 收益 30% 或 者 损失 7%， 代 码 如 下 : 


positions = context.account ().positions() 
for position in positions: 

symbol = position['symbol'] 

current price = current (symbol) [0] ["price"] 

if (current price » context.symbol buy pirce[symbol] * 1.3) or 
(current price « context.symbol buy pirce[symbol] * 0.97): 

order target percent (symbol-symbol, percent-0, 
order type-OrderType Market, 
position side-PositionSide Long) 


最 终 整 体 代码 如 下 : 
【程序 7-2】 


import os 
from gm.api import * 
import numpy as np 
from MSCI_tools import msci_tools as tools 
def init (context): 
context.index = "SHSE.000010" 
context.threshold = 0.05 
subscribe (symbols=[context.index], frequency-'60s') 


context.symbol buy pirce = {} 
context.num = 3 
def on bar(context,bars): 


now — context.now 
positions = context.account().positions() 
for position in positions: 
symbol = position['symbol'] 
current price - current (symbol) [0] ["price"] 
if (current price » context.symbol buy pirce[symbol] * 1.3) or 
(current price « context.symbol buy pirce[symbol] * 0.97): 
order target percent (symbol-symbol, percent=0, 
order type-OrderType Market, 


position side-PositionSide Long) 
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last day = get previous trading date ("SHSE",now) 


day time ,hour and mins = str(now).split(" ") 


symbol list = [] 
if hour and mins == "09:31:00": 


.Symbol list = tools.get symbol list(context.index,now) 


for symbol in symbol list: 
data = 
history n(symbol,frequency-"ld",fields-"close",count-14,end time-last day) 
close = tools.get data value (data,"close") 
std = np.std(close) 
if std « context.threshold: 
symbol list.append (symbol) 


for symbol in symbol list: 
volume - history n(symbol-symbol, frequency-"60s", count-2, 
fields-'volume', fill missing-'Last', 
end time-now, df-True)['volume'].values 
if volume[1]/volume[0] >= 5: 
current price - current (symbol) [0] ["price"] 
last price = history n(symbol-symbol, frequency="1d", count=1, 
fields-'close', fill missing-'Last', 
end time-now, df-True)['close'].values 
if np.log(current price/last price) » 0: 
order target percent(symbol-symbol, percent=1. / (context.num), 
order type-OrderType Market, 
position side-PositionSide Long) 


context.symbol buy pirce[symbol] = current price 


if name == " main ": 
run( 

strategy id-'9f53el15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'715f84a04a4574e2e77491d62f7c8bbc0c663b12', 
backtest start time-"2018-01-01 09:30:00", 
backtest end time-'2018-01-15 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 
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在 这 里 需要 注意 的 是 ， 本 策略 使 用 的 是 按 分 钟 回 测 的 on bar 的 结果 ， 这 样 做 测试 的 时 间 


会 非常 长 。 
最 终结 果 如 图 7-4 所 示 。 


图 7-4 按 分 钟 回 测 的 数据 结果 


。A ”较为 复杂 的 技术 因子 
除了 传统 的 技术 因子 外 ， 随 着 计算 能 力 的 增强 ， 还 有 更 多 的 因子 被 人 为 地 发 现 和 产生 ， 
下 面 将 介绍 一 些 较为 复杂 的 因子 。 


Wy 


常用 性 和 普及 程度 要 高 于 本 节 所 介绍 的 ， 但 是 常用 的 因子 更 容易 失效 。 


7.2.1 阻力 支撑 相对 强度 因子 介绍 


1. 阻力 支撑 相关 概念 

阻力 位 是 指 指标 价格 上 涨 时 可 能 遇 到 的 压力 ， 即 交易 者 认为 卖方 力量 开始 反超 买方 ， 从 
而 价格 难以 继续 上 涨 或 从 此 回调 下 跌 的 价位 ; 支撑 位 则 是 交易 者 认为 买方 力量 开始 反超 卖 
方 ， 从 而 止 跌 或 反弹 上 涨 的 价位 。 

常见 的 确定 阻力 支撑 位 的 方法 有 ， 布 林带 上 下 轨 突 破 策略 (突破 上 轨 建 仓 买 入 ， 突 破 下 
轨 卖 出 平 仓 》 和 均线 策略 (如 超过 20 日 均线 建仓 买 入 ， 低 于 20 日 均线 卖 出 平 仓 ) 。 然 而 ， 
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布 林带 突破 策略 在 震荡 期 间 出 现 了 持续 亏损 ， 均 线 策略 交易 成 本 巨大 ， 且 在 震荡 期 间 的 回 撤 
很 大 。 


2. 阻力 支撑 相对 强度 


阻力 支撑 相对 强度 (Resistance Support Relative Strength, RSRS) 是 另 一 种 阻力 位 与 支撑 
位 的 运用 方式 ， 它 不 再 把 阻力 位 与 支撑 位 当 作 一 个 定 值 ， 而 是 看 作 一 个 变量 ， 反 映 了 交易 者 
对 目前 市 场 状态 项 底 的 一 种 预期 判断 。 

下 面 按照 不 同市 场 状 态 分 类 来 说 明 支 撑 阻 力 相对 强度 的 应 用 逻辑 。 

(1) 市 场 在 上 涨 牛市 中 

如 果 支 撑 明显 强 于 阻力 ， 牛 市 持续 ， 价 格 加速 上 涨 。 

如 果 阻 力 明显 强 于 支撑 ， 牛 市 可 能 即将 结束 ， 价 格 见 项 。 


(2) 市 场 在 震荡 中 

如 果 支 撑 明 显 强 于 阻力 ， 牛 市 可 能 即将 启动 。 

如 果 阻 力 明 显 强 于 支撑 ， 熊 市 可 能 即将 启动 。 

(3) 市 场 在 下 跌 熊 市 中 

如 果 支 撑 明显 强 于 阻力 ， 熊 市 可 能 即将 结束 ， 价 格 见 底 。 
如 果 阻 力 明 显 强 于 支撑 ， 能 市 持续 ， 价 格 加 速 下 跌 。 


3. 阻力 支撑 相对 强度 的 计算 方法 


每 日 最 高 价 和 最 低 价 是 一 种 阻力 位 与 支撑 位 ， 它 是 当日 全 体 市 场 参 与 者 的 交易 行为 所 认可 的 
阻力 与 支撑 。 一 个 很 自然 的 想法 是 建立 最 高 价 和 最 低 价 的 线性 回归 ， 并 计算 出 斜率 ， 即 : 
high = a + B-low + ee ~ N(0,02) 
当 斜 率 值 很 大 时 ， 支 撑 强度 大 于 阻力 强度 。 在 牛市 中 阻力 渐 小 ， 上 方 上 涨 空间 大 ， 在 能 
市 中 支撑 渐 强 ， 下 跌 势 头 欲 止 。 


当 斜 率 值 很 小 时 ， 阻 力 强度 大 于 支撑 强度 。 在 牛市 中 阻力 渐 强 ， 上 涨 势头 渐 止 ， 在 能 市 
中 支撑 渐 弱 ， 下 方 下 跌 空间 渐 大 ， 如 图 7-5 所 示 。 


I 


牛市 中 高 beta 值 对 应 市 场 走 势 示例 熊市 中 南 beta 值 对 应 市 场 走势 示例 
一 一 最 高 价 一 一 最 低 价 一 一 最 高 价 一 一 最 低 价 
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AY T beta hte ASEM He beta 值 对 应 市 场 走势 示例 
= = 
一 一 最 高 价 一 一 最 低 价 一 一 最 高 价 一 一 最 低 价 


图 7-5 不 同 斜率 (Beta 值 ) 对 应 市 场 走势 
RSRS 因子 的 基本 计算 代码 如 下 : 


def get_rsrs_weight_not_support (symbol,now, length = 600,window = 18): 
last day = get previous trading date("SZSE",now) 
last last day = get previous trading date("SZSE",last day) 
data = history n(symbol-symbol, frequency="1d", count-length + window, 
end_time=last_last_day, 
fields="open, high, low,close", 
fill missing-"last", df=True) 
data high = (data["high"].values) 
data low = (data["low"].values) 
# 这 里 是 直到 前 天 的 RSRS 序列 值 
rsrs weights = [] 
for len_ in range(len(data) - window + 1): 
high_ = data_high[len_:len_ + window] 
low_ 


data_low[len_:len_ + window] 


low_ = sm.add_constant (low_) 
model_ = sm.OLS(high_, low_) 
results = model .fit() 


weight_ = (results_.params[1]) 


# rsrs weights.append(weight ) # 原 始 weight 
rsrs_weights.append(weight_) # 这 里 是 加 上 权重 的 weight 


last day data = history n(symbol-symbol, frequency="1d", count=window, 
end_time=last_day, 


fields-"open,high,low,close", fill missing-"last", 


df-True) 
high = last day data["high"].values 
low = last day data["low"].values 
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low = sm.add constant (low ) 


model = sm.OLS(high , low ) 

results = model .fit() 

weight = (results .params[l1]) 

Z score = (weight - np.mean(rsrs weights)) / np.std(rsrs weights) 


return z score 

这 里 的 基本 思想 是 计算 高 值 与 低 值 之 间 的 斜率 值 ， 即 : 
€ al M 日 的 最 高 价 与 最 低 价 序列 (M-600). 

© ”将 两 列 数据 进行 OLS 回归 。 

e RAM 日 的 针 率 时 间 序列 ， 计 算 当日 儿 率 的 标准 分 。 


7.2.2 改进 的 RSRS 因子 与 回 测 数据 


实际 上 ， 在 使 用 RSRS 进行 因子 值 计 算 时 ， 其 量化 效果 很 大 程度 上 受 拟 合 本 身 效 果 的 影 
响 。 我 们 将 RSRS 标准 分 与 决定 系数 相 乘 得 到 RSRS 修正 标准 分 ， 以 此 降低 绝对 值 很 大 但 拟 
合 效果 很 差 的 RSRS 标准 分 对 策略 的 影响 。 

RSRS 标准 分 在 预测 性 上 的 改善 效果 主要 体现 于 标准 分 左 侧 ， 由 于 A 股 更 多 地 使 用 做 多 
策略 ， 因 此 左 侧 预测 性 改善 对 择 时 策略 帮助 并 不 大 。 一 个 改进 的 策略 是 将 RSRS 修正 标准 分 
与 RSRS 斜率 值 相 乘 得 到 RSRS 右 偏 标准 分 。 

改进 后 的 RSRS 计算 方法 如 下 : 

# 斜 率 越 大 ， 支 撑 强 弱 (RSRS) 越 强 ， 反 之 越 弱 


def get rsrs weight classic(symbol,now,length = 200,window = 18): 
last day = get previous trading date("SHSE", now) 


ans = [] 


ans rightdev - [] 


data = history n(symbol, frequency="1d", count-length, end time-last day, 
fields-"high, low") 


highs = msci tools.get data value(data, "high") 
lows = msci tools.get data value(data, "low") 
for i in range (len (highs) ) [window:]: 

data high = highs[i - window + 1:i + 1] 

data low = lows[i - window + 1:i + 1] 

X = sm.add constant (data low) 

model = sm.OLS(data high, X) 

results = model.fit() 
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ans .append (results.params[1]) 
+ 计算 r2 


ans rightdev.append (results.rsquared) 


+ 计算 标准 化 的 RSRS 指标 

# 计算 均值 序列 

section = ans[-length:] 

+ 计算 均值 序列 

mu = np.mean (section) 

+ 计算 标准 化 RSRS 指标 序列 

sigma = np.std(section) 

zscore = (section[-1] - mu) / sigma 
+ 计算 右 偏 RSRS 标准 分 


zscore rightdev = zscore * ans[-1] * ans rightdev[-1] 


return (zscore rightdev) 
下 面 使 用 右 偏 RSRS 对 大 盘 进 行 回 测 择 时 。 
【程序 7-3】 


from gm.api import * 


import os 


from MSCI tools import 计算 RSRS as RSRS 
def init(context): 
Schedule(schedule func-algo, date rule-'l1d', time rule-'09:31:00") 


context.index = "SHSE.000300" 


def algo(context): 
now — context.now 


last day - get previous trading date("SHSE", now) 
rsrs weight = RSRS.get rsrs weight classic(context.index,last day) 


if rsrs weight » 0.7: 
order target percent(symbol-context.index, percent=1, 
order type-OrderType Market, 
position side-PositionSide Long) 
elif rsrs weight « -0.7: 
order target percent (symbol-context.index, percent=0, 
order type-OrderType Market, 


position side-PositionSide Long) 
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def on backtest finished(context, indicator): 
print (indicator) 
fs name == " main “: 
run ( 
strategy id-'9f53el15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'715f84a04a4574e2e77491d62f7c8bbc0c663b12', 
backtest start time-'2016-01-10 09:30:00', 
backtest end time-'2018-07-01 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 


) 
回 测 结 果 如 图 7-6 所 示 。 


eee RES "eiie pa] n end 


图 7-6 RSRS 因子 回 测 结果 

对 于 沪 深 300 的 择 时 回 测 可 以 看 到 ， 在 前 半 段 因子 走出 了 一 个 独立 行情 ， 可 以 较 好 地 针 

对 走势 做 出 调整 。 顺 便 说 一 下 ， 通 过 回 测 图 可 以 看 到 ，RSRS 的 因子 在 本 次 测试 的 前 半 段 能 

够 较 好 地 走出 独立 行情 ， 能 够 较 好 地 锁 住 因 子 ， 而 在 后 半 段 仅仅 反映 出 对 应 标的 的 走势 ， 这 
是 一 种 因子 失效 的 表现 。 


7.23 价差 偏离 度 因子 介绍 
价差 偏离 度 因子 本 质 上 是 一 个 相对 意义 上 的 反 转 因子 ， 价 差 偏离 度 低 ， 近 期 跑 输 其 同类 
票 ， 股 票 相对 处 于 低位 ， 有 向 上 回复 的 动力 ， 有 正 的 预期 超额 收益 ， 价 差 偏离 度 越 高 ， 股 
票 处 于 相对 高 位 ， 后 期 有 回调 的 压力 。 
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价差 偏离 度 和 传统 的 市 值 因 子 、 估 值 因子 相关 性 弱 ， 通 过 因子 分 层 后 分 组 和 Fama- 
Macbeth 回归 可 以 发 现 ， 传 统 的 1 个 月 反 转 和 3 个 月 反 转 可 以 被 价差 偏离 度 奉 代 ， 而 价差 偏 
离 度 因子 信息 来 源 相 对 独立 ， 不 能 被 其 他 的 常见 因子 所 解释 。 

因此 可 以 知道 ， 价 差 偏离 度 因子 的 主要 作用 是 捕捉 股票 相对 其 同类 型 〈 板 块 ) 股票 的 高 
估 低 估 程 度 。 低 估 的 股票 之 后 会 补 涨 ， 高 估 的 股票 之 后 有 补 跌 的 趋势 。 

下 面 介绍 价差 偏离 度 因子 的 使 用 。 

(1) 价差 偏离 度 因子 指 的 是 股票 池内 股票 标的 过 去 250 个 交易 日 的 复权 收盘 价 ， 要 求 计 
算 涨 跌幅 及 250 天 涨 跌幅 的 Pearson 相关 系数 ， 而 “股票 间 的 距离 ”使 用 的 是 皮尔 逊 相关 系 
数 ， 用 系数 值 代 蔡 不 同 的 股票 之 间 的 距离 。 

公式 如 下 : 
Distance= 两 股票 过 去 250 个 交易 日 涨 跌幅 的 Pearson 相关 系数 distance 
=1- 两 股票 过 去 250 个 交易 日 涨 跌幅 的 Pearson 相关 系数 

(2) 为 每 一 只 股票 取出 距离 最 近 的 10 只 股票 distance_min10， 等 权 构 建 这 10 只 股票 的 
特征 组 合 ， 计 算 特 征 组 合 的 净值 价格 ， 作 为 参考 价格 (ReferencePrice〉。 


G) 取出 股票 池 中 每 只 股票 的 收盘 价 〈closePrice) ， 与 参考 价格 取 对 数 后 作 差 ， 得 到 
对 数 价差 (PriceSpread) 。 


AX: 


PriceSpread=In((closePrice)—In(ReferencePrice))PriceSpread 
=In((closePrice)—In(ReferencePrice)) 
(4) 对 每 只 股票 算 过 去 60 个 交易 日 的 PriceSpread， 并 对 其 标准 化 得 到 SpreadBias。 公 式 
如 下 : 
SpreadBias=PriceSpread—mean(PriceSpread)std(PriceSpread)SpreadBias 
=PriceSpread—mean(PriceSpread)std(PriceSpread) 
股票 池 中 距离 的 获取 : 


def get max symbols list(symbol list = "", frequency="1d",count = 250,now = 


"",num = 10): 


start date = ago.get previous date (now, 250) 


last day = get previous trading date ("SZSE",now) 


df — pd.DataFrame([]) 
Symbol list = [] 
for symbol in symbol list: 
try: 
data = history(symbol-symbol, frequency-frequency, 
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start_time=start_date, end_time=last_day, fields="close", 
fill missing-"last", adjust-ADJUST PREV, 
if len(data) == count: 
.Symbol list.append (symbol) 
close = (data["close"].values) 
close = np.diff (close) /close[:-1] 
data_close = pd.DataFrame({symbol: close}) 


if len(df) — 0: 
df = (data close) 
else: 
df = pd.concat([df, data close], axis-1 
except: 
pass 


symbol list = symbol list 


corr = df.corr() 
symbol and corr list={} 
for in range(len(symbol list)): 


line 1 = (corr.ix[:, ]) 
line 1 = line 1.sort values(ascending-False) # 由 高 到 低 排序 


res = (line 1.index) [0:num] 
symbol and corr list[symbol list[ ]] = res 


return symbol and corr list 
对 于 因子 值 的 最 终 计算 : 


def get_SpreadBias (symbol and corr list,now): 


last day = get previous trading date ("SZSE",now) 


symbol and ReferencePrice = {} 
symbol and PriceSpread = {} 


for symbol in symbol and corr list: 
symbol list = symbol and corr list[symbol] 


PriceSpread arr - [] 

for n in range(60): 
target day = ago.get previous date(last day,n) 
close arr — [] 


for in symbol list: 


data = history(symbol- , frequency-"1d", start time-target day, 
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df-True) 


end_time=target_day, fields="close", 
fill missing-"last", adjust-ADJUST PREV, df=True) 
close arr.append (data ["close"].values) 

data = history n(symbol-symbol, frequency="1d", count=1, 

end time-target day, fields-"close", 
fill missing-"last", adjust-ADJUST PREV, df-True) 

close = data["close"].values 

PriceSpread = np.log(close[-1]) - np.log(np.mean(close arr) 

PriceSpread arr.append(PriceSpread) 

symbol and PriceSpread[symbol] = (PriceSpread arr[-1] - 

np.mean(PriceSpread arr))/np.std(PriceSpread arr) 


return symbol and PriceSpread 

此 因子 计算 需要 大 量 的 时 间 ， 因 此 建议 读者 自行 其 酌 是 否 继续 完成 。 

根据 价差 偏离 度 的 定义 可 以 知道 ， 该 因子 实际 上 度量 了 个 股 相 对 其 相似 的 股票 集 价格 的 
偏离 程度 ， 是 一 个 相对 意义 上 的 反 转 因子 。 价 差 偏离 度 低 ， 说 明 股 票 近期 跑 输 其 特征 组 合 ， 
相对 估 值 较 低 ， 有 向 上 回复 的 动力 ， 有 正 的 预期 超额 收益 ， 反 之 ， 价 差 偏离 度 较 高 ， 则 说 明 
该 股票 相对 估 值 较 高 ， 后 期 有 回调 的 压力 。 这 里 要 注意 的 是 ， 该 因子 有 效 的 前 提 是 股票 基本 
面 没有 发 生 重大 变化 ， 若 近期 内 发 生 重大 变化 使 得 价格 发 生 改 变 ， 则 价差 偏离 度 因 子 很 有 可 
能 会 失效 。 


简单 的 技术 性 因子 一 一 波动 率 因子 


读者 看 完了 7.2 节 中 部 分 因子 的 计算 与 写法 ， 可 能 对 相关 内 容 比 较 难以 理解 ， 其 实 大 多 
数 的 内 容 也 是 仅仅 涉及 了 回归 分 析 ， 这 应 该 是 大 学 本 科 一 二 年 级 的 课程 。 

本 节 将 继续 介绍 一 个 最 常用 的 技术 性 因子 一 一 波动 率 因子 ， 难 度 会 有 所 降低 ， 但 是 会 更 
加 具有 普遍 性 和 适用 性 。 


7.3.1 波动 率 因 子 介绍 

“ 低 波 动 率 影响 现象 ”， 从 字面 上 解释 为 低 风险 和 低 波动 率 的 股票 有 更 高 的 风险 调整 后 
的 回报 率 。 

然而 这 一 理论 与 传统 金融 学 的 思想 相悖 。 传 统 金融 学 认为 ， 风 险 和 收益 之 间 存 在 权衡 ， 
高 风险 往往 带 来 高 收益 ， 低 风险 则 对 应 低 收 益 ， 因 此 在 传统 金融 学 背景 下 ， 低 风险 低 波 动 率 
的 股票 也 能 带 来 更 高 的 回报 率 这 一 说 法 似乎 难以 成 立 。 

在 论文 《The Volatility Effect: Lower Risk without Lower Retum》 中 ， 作 者 给 出 了 对 于 这 
一 现象 的 几 种 解释 : 


@。” 低 波动 的 资产 投资 组 合 需 要 杠杆 来 匹配 市 场 风险 ， 进 而 充分 利用 低 风险 股票 所 特有 
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的 绝对 回报 ， 但 是 现在 对 于 杠杆 存在 制度 限制 。 
@。” 低 效 投资 过 程 。 管 理 者 通常 对 高 波动 的 股票 支付 过 高 ， 以 期 待 在 牛市 中 得 到 更 高 回 
报 。 

© ”私人 投资 者 的 行为 偏差 。 

而 在 实际 中 ， 波 动 率 因子 又 根据 波动 的 相对 条 件 分 为 “ 自 波动 ”与 “相对 波动 
(Beta) ” 值 ， 这 是 波动 率 计算 的 两 个 最 基础 的 方面 。 其 主要 区 别 是 ，“ 自 波动 ”主要 计算 
标的 自身 的 时 间 序 列 的 波动 性 ， 而 “相对 波动 ”主要 是 计算 标的 时 间 序 列 与 相对 的 时 间 序 列 
之 间 的 波动 性 。 

其 代码 实现 如 下 : 

1. 对 数 收益 率 自 波动 的 计算 方法 

自 波动 的 计算 方法 是 根据 每 个 时 间 段 的 收益 率 的 标准 差 进 行 计算 ， 代 码 如 下 


def get volatility wind(symbol,now,count): 


last day = get previous trading date ("SHSE", now) 
data = history n(symbol-symbol, frequency="1d", count-count, 


end time-last day,fields-"high,low,close",fill missing-"last") 


close = msci tools.get data value (data, " close") 

close = pd.DataFrame (close) 

Stocks change = close.apply(lambda x: np.log(x) - np.log(x.shift (1))) 

* 计算 30, 60, 90 日 波动 率 ,年 化 之 

daily vol = stocks_change.std() 

annual vol = daily vol * 252 ** 0.5 

return annual vol.values[0] 

其 主要 思想 是 计算 收益 率 的 对 数 时 对 其 进行 年 化 处 理 。get_data_value 函数 用 于 从 数据 集 
中 提取 收盘 价 时 间 序 列 ， 代 码 如 下 : 
# 这 段 代 码 用 于 获取 返回 的 data 数据 中 的 对 应 因子 的 list 
def get_data_value (data, factor): 

result = [] 

for _ in data: 

result.append(_[factor]) 


return result 

2. 简单 自 波 动 的 计算 方法 

还 有 一 种 较为 常用 的 自 波动 的 计算 方法 是 简单 波动 率 计 算法 。 其 来 源 于 自身 的 相关 系数 
与 变异 系数 的 计算 值 与 结果 ， 代 码 如 下 
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def get volatility normal (symbol, now, count) : 


last day = get previous trading date("SHSE",now) 


data = history n(symbol-symbol, frequency="1d", count-count, 


end time-last day,fields-"high,low,close",fill missing-"last") 


close = msci tools.get data value (data, "close") 


M 


res np.var (close) /np.mean (close) 


res np.sqrt (res) 


return res 

这 两 种 都 是 计算 特定 标的 时 间 序 列 的 方法 ， 而 对 于 其 他 标的 一 般 是 上 证 指数 或 者 沪 深 
300 等 指数 ) 的 波动 性 计算 ， 由 下 列 方法 完成 。 

3. 使 用 收盘 价 进行 的 Beta 值 计 算 方法 

使 用 不 同 标的 的 收盘 价 作为 计算 的 时 间 序 列 是 最 简单 和 最 常用 的 方法 ， 代 码 如 下 : 


import statsmodels.api as sm 


def get beta weight 1 not support (symbol,now,count,market index = 
"SHSE.000001"): 


一 般 用 单个 股票 资产 的 历史 收益 率 对 同期 指数 〈 大 盘 ) 收益 率 进 行 回 归 ， 回 归 系 数 就 是 Beta 系数 。 


nnn 

last day = get_previous_trading_date ("SHSE", now) 

market data = history n(symbol-market index, frequency="1d", count=count, 
end time-last day,fields-"high,low,close",fill missing-"last") 


market close = msci tools.get data value (market data,"close") 


symbol data = history n(symbol-symbol, frequency-"ld", count-count, 
end time-last day,fields-"high,low,close",fill missing-"last") 


symbol close = msci tools.get data value(symbol data,"close") 


market close = sm.add constant (market close) 


model = sm.OLS(symbol close, market close) 
results = model .fit() 
weight = (results .params[1]) 


return weight 


这 里 使 用 上 证 指数 作为 对 应 的 标的 ， 在 实际 中 可 以 根据 需要 修改 成 沪 深 300 或 者 创业 板 
等 特定 标的 。 


153 


4. 使 用 收益 率 的 Beta 值 计 算 方法 


除了 绝对 收盘 价 之 间 值 的 计算 外 ， 还 有 一 种 使 用 收益 率 作为 Beta 值 的 计算 方法 ， 代 码 如 下 


def get beta weight 2(symbol,now,count,market index = "SHSE.000001"): 
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一 般 用 单个 股票 资产 的 历史 收益 率 对 同期 指数 〈 大 盘 ) 收益 率 进 行 回 归 ， 回 归 系 数 就 是 Beta 系数 。 


last day = get_previous_trading_date("SHSE", now) 


market data = history n(symbol-market index, frequency="1d", count=count, 


end_time=last_day, 
fields="high, low, close", 


fill missing-"last") 
market close = msci tools.get data value (market data,"close") 


market close ratio - [] 

for i in range(1,len(market close)): 
ratio = (market close[i] - market close[i-1])/market close[i-1] 
ratio — (0.99 ** (len(market close) - i)) * ratio 


market close ratio.append (ratio) 


symbol data = history n(symbol-symbol, frequency-"ld", count-count, 
end time-last day, 


high,low,close", 
"last") 


fill missing 
symbol close = msci tools.get data value (symbol data,"close") 


symbol close ratio - [] 

for i in range(1,len(symbol close)): 
ratio = (symbol close[i] - symbol close[i-1])/symbol close[i-1] 
ratio = (0.99 ** (len(market close) - i)) * ratio 


symbol close ratio.append (ratio) 


market close ratio = sm.add constant (market close ratio) 


model = sm.OLS(symbol close ratio, market close ratio) 
results _ = model .fit() 
weight = (results .params[1] 


return weight 


以 上 4 种 是 较为 常见 的 波动 率 的 计算 方法 ， 除 此 之 外 ， 还 有 更 多 的 波动 率 的 计算 方法 ， 
下 一 节 进 行 介绍 。 


7.3.2 更 多 的 波动 率 因子 

除了 7.3.1 小 节 介 绍 的 波动 率 因子 外 ， 还 有 更 多 的 波动 率 因子 可 以 使 用 ， 作 者 总 结 了 几 个 
有 效 因 子供 读者 学 习 。 需 要 注意 的 是 ， 这 里 的 price data 是 生成 的 对 应 的 pandas 格式 ， 按 需 
要 包括 最 高 价 、 最 低 价 以 及 收盘 价 。 

(1) Parkinson (1980) 估计 量 采用 交易 时 段 最 高 价 和 最 低 价 两 个 价格 数据 ， 利 用 极 差 进 
行 估计 。 该 估计 量 使 价格 波动 区 间 在 一 定 假设 下 比 基 于 收盘 价 的 估计 量 更 能 有 效 地 估计 回报 
波动 率 。 
def Parkinson get estimator (price data, window=30, trading periods=252, 
clean=True) : 


rs = (1.0 / (4.0 * math.log(2.0))) * ((price data['High'] / 
price data['Low']).apply(np.log)) ** 2.0 


def f(v): 


return trading periods * v.mean() ** 0.5 


result = rs.rolling( 
window-window, 
center-False 


) -apply (func=f) 


if clean: 
return result.dropna() 
else: 


return result 


(2) Garman-Klass (1980) 利用 交易 时 段 最 高 价 、 最 低 价 和 收盘 价 三 个 价格 数据 进行 估 
计 ， 该 估计 量 通过 将 估计 量 除 以 调整 因子 来 纠正 存在 的 偏差 ， 以 便 得 到 方差 的 无 偏 估 计 。 


def GarmanKlass get estimator (price data, window=30, trading periods=252, 
clean-True): 


log hl = (price data['High'] / price data['Low']).apply (np.log) 
log cc = (price data['Close'] / price data['Close'].shift(1)).apply (np.log) 


rs 20-5 *0logShi 2 i22 EmathsToqu2) T) oe a fered ee 


def f(v): 


155 


return (trading periods * v.mean()) ** 0.5 


result = rs.rolling(window-window, center-False).apply(func-f) 
if clean: 

return result.dropna() 
else: 

return result 


(3) Parkinson 和 Garman-Klass 估计 量 之 所 以 能 提高 估计 效率 ， 是 因为 它们 依赖 于 一 些 不 适 
用 于 真实 市 场 的 假设 ， 尤 其 是 价格 服从 不 带 漂移 项 的 几何 布朗 运动 以 及 交易 是 连续 的 假设 。 
Rogers-Satchell 在 一 定 程度 上 放宽 了 这 些 限 制 条 件 ， 引 入 了 带 有 漂移 项 的 更 优 的 估计 量 。 
def RogersSatchell get_estimator(price data, window=30, trading_periods=252, 


clean=True) : 


log ho = (price data['High'] / price data['Open']).apply (np.log) 
log lo = (price data['Low'] / price data['Open']) .apply (np.1og) 
log co = (price data['Close'] / price data['Open']) .apply (np.1og) 


rs = log ho * (log ho - log co) + log lo * (log lo - log co) 


def f(v): 


return trading periods * v.mean() ** 0.5 


result = rs.rolling( 
window-window, 
center-False 


)-apply(func-f) 


if clean: 
return result.dropna() 
else: 


return result 


(4) Garman-Klass (1980) 估计 量 无 法 解决 价格 序列 中 存在 跳 空 开盘 的 情况 。Yang- 
Zhang (2000) 推导 出 了 适用 于 价格 跳 空 开盘 的 估计 量 ， 本 质 上 是 各 种 估计 量 的 加 权 平 均 。 


def YangZhang get estimator(price data, window-30, trading periods-252, 


clean-True): 
log ho = (price data['High'] / price data['Open']).apply (np.log) 
log lo = (price data['Low'] / price data['Open']).apply (np.log) 
log co = (price data['Close'] / price data['Open']).apply (np.1log) 


log oc = (price data['Open'] / price data['Close'].shift(1)).apply (np.log) 
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(5) 使 用 偏 度 Skew 代 蔡 波动 率 。 


(6) 使 用 峰 度 Kurtosis 代 蔡 波动 率 。 

def Kurtosis get estimator(price data, window-30, clean-True): 
"iE RE Kurtosis 代替 波动 率 " 
log return = (price data['Close'] y 

price data['Close'].shift(1)).apply (np.log) 


result = log return.rolling( 
window-window, 
center-False 

) -kurt () 


if clean: 
return result.dropna() 


else: 
return result 


实战 : 一 个 回 测 成 功率 100% 的 中 长 线 
买卖 例子 


对 于 股票 投资 ， 特 别 是 中 长 线 投资 ， 成 功率 是 非常 重要 的 ， 任 何人 都 不 希望 经 过 长 时 间 


的 投资 等 待 ， 原 先 的 一 笔 投 资产 生 亏 损 。 下 面 给 读者 分 享 一 个 回 测 中 成 功率 能 够 达到 10096 


选 股 策略 ， 主 要 依据 的 是 技术 选 股 ， 如 图 7-7 所 示 。 


i 


NUM analis. sis bip Mel dd eM A dil Win eje 


图 7-7 LR TH 100% 的 选 股 策略 
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7.4.1 技术 指标 的 设计 


传统 的 选 股 方式 主要 依靠 技术 指标 ， 这 也 是 长 期 以 来 广大 股民 从 市 场 中 获取 收益 的 方 
式 。 技 术 指标 更 多 的 是 涉及 对 收盘 价 以 及 交易 量 的 波动 性 判断 。 
首先 是 买 入 点 的 指标 ， 代 码 如 下 : 


(1) 定义 60 天 的 波动 率 小 于 10%: 


def buy check price amplitude(context, symbol, count = 60, threshold = 0.1): 


now = context.now 


last day = get previous trading date("SHSE", now) 
#amplitude = beta and vol.get volatility normal(symbol,last day,count-count) 


data = 
history _n(symbol, frequency="1d",count=count, end_time=last_day, fields="open, hig 
h, low, close") 

close = msci_tools.get_data_value (data, "close") 

open = msci_tools.get_data_value(data, "open" 

high = msci_tools.get_data_value(data, "high") 

low = msci tools.get data value(data, "low") 


amplitude = (np.max(high) - np.min(low))/close[0] 


if amplitude « threshold: 
return True 
else: 


return False 


(2) 买 入 点 -地 量 〈 连 续 18 周 成 交 量 小 于 最 近 4 年 内 天 量 的 10%) : 


def buy check mean volume small (context, 
symbol,week count short-18 ,week count long = 150, threshold = 0.1): 


now — context.now 


last day = get previous trading date("SHSE", now) 


data = history n(symbol, frequency="1d", count-week count long * 5, 
end time-last day, fields-"volume") 

volume = msci tools.get data value (data, volume") 

max volume last = np.max(volume[-week count short*5:]) 


max volume = np.max(volume) 


if max volume last « max volume * 0.1: 
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return True 
else: 


return False 


(3) 单 日 成 交 量 大 于 该 股 的 前 五 日 移动 平均 成 交 量 的 2.5 倍 ， 大 于 前 10 日 移动 平均 成 交 
量 的 3 倍 : 


def buy check volume increase(context, symbol): 


now — context.now 


last day = get previous trading date("SHSE", now) 


data = history n(symbol, frequency="1d", count-11, end time-last day, 
fields-"volume") 

volume = msci tools.get data value (data, "volume") 

h = volume 

volume = h['volume'] [-1] 

volume mean 5 = np.mean(h['volume'][-6:-1]) 

volume mean 10 - np.mean(h['volume'][-11:-1]) 

if volume » volume mean 5 * 2.5 and volume » volume mean 10 * 3: 

return True 
else: 


return False 


(4) 找到 昨天 之 前 成 交 量 大 于 昨天 的 成 交 量 (0.8 倍 ) ， 这 个 区 间 的 天 数 大 于 30 R, WE 
天 单 日 成 交 量 大 于 该 区 间 的 平均 成 交 量 的 2 倍 ， 区 间 价 格 波动 小 于 10%: 


def buy check volume increase and price amplitude(context, symbol): 


now — context.now 


last day - get previous trading date("SHSE", now) 


data = history n(symbol, frequency="1d", count-270, end time-last day, 
fields="open, high, low, close, volume") 


close = msci tools.get data value (data, "close") 


open msci tools.get data value(data, "open") 
high = msci tools.get data value(data, "high") 
low = msci tools.get data value(data, "low") 


volume = msci tools.get data value (data, volume") 


volume yesterday - volume[-1] 


# 昨日 收盘 价 要 高 于 开盘 价 


if close[-1] < open[-1]: 
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return False 


# 找 到 昨天 之 前 成 交 量 大 于 昨天 的 成 交 量 〈0 .8 倍 ) 的 那个 日 期 ， 这 个 日 期 到 今天 的 区 间 的 天 数 大 于 30K 
start = 0 
end = -1 
for i in range(1, len(volume)): 
index = -(i + 1) 
if volume[index] » volume[-1] * 0.8: 
start — index * 1 
break 
if start == 0 or (end - start) < 30: 
return False 
+ 昨天 单 日 成 交 量 大 于 该 区 间 的 平均 成 交 量 的 2 fé 
volume_mean = np.mean(volume[start:end]) 
volume mean 5 = np.mean(volume[-6:-1]) 
if volume yesterday « volume mean * 2.5 or volume yesterday « volume mean 5 
a2 


return False 


+ 区 间 价 格 波动 小 于 108 

price max = max (high[start:end]) 

price_min = min(low[start:end]) 

price amplitude = (price max - price min) / open[start] 

# print 'min=%s, max=%s, open-$s, amplitude-$s' % (price min, price max, 
h['open'][start], price amplitude) 

if price amplitude » 0.1: 


return False 


return True 
(5) 对 于 卖 出 点 的 指标 设 定 ， 卖 出 点 的 判定 代码 如 下 : 


def sell check(context, symbol): 
if sell check mean price(context, symbol, 0.1) and 
Sell check turnover ratio(context, symbol): 
return True 
if sell check mean price(context, symbol, 0.2): 
return True 


return False 


(6) 卖 出 点 -均线 (5 日 线 超过 10 AA 10%, 10 日 线 超过 30 H 10%) : 


def sell check mean price(context, symbol, threshold = 0.1): 


now — context.now 


161 


last day = get previous trading date("SHSE", now) 


data = history n(symbol, frequency="1d", count-31, end time-last day, 


fields-"open,high,low,close,volume") 


close = msci tools.get data value(data, "close") 
open = msci tools.get data value(data, "open") 
high = msci tools.get data value(data, "high") 
low = msci tools.get data value(data, "low") 


volume = msci tools.get data value(data, "volume") 


# R5 AR. 10 HA. 30 AR 

mean_5 = np.mean(close[-5:]) 

mean 10 = np.mean(close[-10:]) 

mean 30 - np.mean(close[-30:]) 

diff 5 10 = (mean 5 - mean 10) / mean 10 
diff 5 30 = (mean 5 - mean 30) / mean 30 
diff 10 30 — (mean 10 - mean 30) / mean 30 


# 求 昨天 的 5 AR. 10 AR. 30 AR 

yes mean 5 - np.mean(close[-6:-1]) 

yes mean 10 = np.mean(close[-11:-1]) 

yes mean 30 - np.mean(close[-31:-1]) 

yes diff 5 10 = (yes mean 5 - yes mean 10) / yes mean 10 
yes diff 5 30 = (yes mean 5 - yes mean 30) / yes mean 30 


yes diff 10 30 = (yes mean 10 - yes mean 30) / yes mean 30 
return diff 5 30 » threshold 
(7) 卖 出 点 - 换 手 率 : 
def sell check turnover ratio(context, symbol): 
now — context.now 
last day - get previous trading date("SHSE", now) 
# 换 手 率 
_df = get fundamentals (table='trading derivative indicator', symbols=symbol, 


start_date=last_day, 
end date-last day, fields-'TURNRATE') 


TURNRATE = msci tools.get data value( df,"TURNRATE") 
return TURNRATE[0]>15 


# 卖 出 点 RSRS 
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from MSCI_tools import 计算 RSRS as RSRS 
def sell_check_rsrs (context, symbol) : 
threshold = -0.7 
now = context.now 


zscore rightdev = RSRS.get_rsrs_weight_classic (symbol, now) 


if zscore_rightdev < threshold: 
return True 
else: 


return False 


(8) 庄 股 值 计算 〈 庄 股 值 : 能 够 无 量 涨 停 的 或 无 量 杀 跌 的 ) : 


def cow_stock_value(context, symbol): 

now = context.now 

_pb = get fundamentals (table-'trading derivative indicator', 
start date-now, 

end date-now, fields-'PB,NEGOTIABLEMV') 

pb = msci tools.get data value( pb, "PB") 

NEGOTIABLEMV = (msci tools.get data value( pb, 
"NEGOTIABLEMV") ) [0] /100000000 


if NEGOTIABLEMV > 100: 

return 0 
num_fall = fall_money day 3line(context, symbol, 120, 20, 60, 
num_cross = money 5 cross_60(context, symbol, 120, 5, 160) 


return (num_fall * num_cross) / (pb *(NEGOTIABLEMV ** 0.5)) 
(9) 3 条 移动 平均 线 计算 缩 量 : 


def fall money day 3line (context, symbol,n,n1-20,n2-60,n3-120): 
now = context.now 


last day = get previous trading date ("SHSE",now) 


symbols-symbol, 


160) 


data = history n(symbol, frequency="1d", count-n-*n3, end time-last day, 


fields-"cum volume") 
stock m = msci tools.get data value (data,"cum volume") 
i-0 
count=0 
while i<n: 
money MA200=np.mean (stock_m[i:n3-1+i]) 
money MA60-np.mean(stock m[i-*n3-n2:n3-1*i]) 
money MA20-np.mean(stock m[i-*n3-nl:n3-1*i]) 
if money MA20«-money MA60 and money MA60«-money MA200: 


count=count+1 
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i=itl 


return count 


(10) 计算 脉冲 ， 成 交 额 5 日 穿 60 H: 


def money 5 cross 60(context, symbol, n, nl = 5, n2 = 60): 
now — context.now 


last day = get previous trading date ("SHSE",now) 


data = history n(symbol, frequency="1d", count-n*n241, end time-last day, 
fields-"cum volume") 
Stock m = msci tools.get data value (data,"cum volume") 
i-0 
count=0 
while i<n: 
money MA60-np.mean(stock m[i-*1:n2-*i]) 
money MA60 before-np.mean(stock m[i:n2-1*i]) 
money MA5-np.mean(stock m[i-l*n2-n1l:n2*i]) 
money MA5 before-np.mean(stock m[i*n2-n1:n2-1*i]) 
if (money MA60 before-money MAS before) * (money MA60-money MA5)«0: 
count=count+1 
i=itl 


return count 
7.4.2 回 测 的 设计 


下 面 对 回 测 进行 设计 ， 从 前 面 的 内 容 可 以 得 知 ， 这 里 的 买 入 点 和 卖 出 点 都 有 特定 的 标 
的 ， 买 入 标的 主要 需要 满足 3 个 条 件 : 


@ ”找到 昨天 之 前 成 交 量 大 于 昨天 的 成 交 量 (0.8 倍 ) ， 这 个 区 间 的 天 数 大 于 30 X. 
@ ”昨天 单 日 成 交 量 大 于 该 区 间 的 平均 成 交 量 的 2 倍 。 

e ”区间 价格 波动 小 于 10%, 

而 卖 出 标的 更 需要 满足 以 下 条 件 之 一 : 


e 5 日 均线 值 超过 30 日 均线 值 的 10%6 且 换 手 率 大 于 15. 
e 5 日 均线 值 超过 30 日 均线 值 的 20%6。 


完整 代码 如 下 。 
【程序 7-4】 


import numpy as np 
from gm.api import * 
import os 


from MSCI tools import msci tools 
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from 中 长 线 买 入 卖 出 点 选择 import tools 


def init (context): 
schedule (schedule func-algo, date rule-'1d', time rule-'09:31:00') 


context.num = 10 # 最 大 持 股 数 
def algo(context): 
now — context.now 


sell symbol list - [] 
buy symbol list - [] 


# 过 滤 卖 出 股票 
positions = context.account().positions() 
for position in positions: 
symbol = position['symbol'] 
if tools.sell check(context, symbol): 
order target percent (symbol-symbol, percent-0, 
order type-OrderType Market, 
position side-PositionSide Long) 
sell symbol list.append (symbol) 
print(now," ","3ÉHi: ",symbol) 
symbol list = msci tools.get symbol list ("SHSE.000922",now) 


for symbol in symbol list: 
TEYS 
if (symbol not in sell_symbol_list) and 
(tools.buy check(context,symbol)) : 
order target percent(symbol-symbol, percent=1./context.num, 
order type-OrderType Market, 
position side-PositionSide Long) 
print(now," ","3KA: ",symbol) 


except:pass 


def on backtest finished(context, indicator): 
print (indicator) 
if name == " main ": 
run( 
strategy id-'9f53el15f-6870-11e8-801c-4cedfb681747-', 
filename-(os.path.basename( file )), 


mode-MODE BACKTEST, 
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token-'715f84a04a4574e2e77491d62f7c8bbc0c663b12', 
backtest start time-"2014-01-05 09:30:00", 
backtest end time-'2018-06-05 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 

) 


buy check 与 sell check 分 别 是 买 入 点 与 卖 出 点 的 设置 ， 这 里 只 有 通过 买 入 点 的 判定 才能 
够 买 入 ， 读 者 需要 注意 一 个 技巧 ， 就 是 加 入 了 一 个 黑 名 单 的 机 制 ， 在 买 入 前 还 需要 对 黑 名单 
进行 判定 ， 这 个 技巧 可 以 说 非常 有 用 。 


7 .5 Mg 


基本 面 因子 和 技术 面 因子 是 相辅相成 的 ， 共 同 组 成 了 一 个 完整 的 选 股 策略 。 

本 章 主要 从 技术 面 因子 入 手 ， 做 出 了 多 种 最 常用 的 波动 率 因 子 的 变动 ， 主 要 涉及 自 波动 
与 相对 波动 (Beta) 的 计算 ， 这 也 是 最 常用 的 技术 面 因 子 。 

在 学 习 完 基本 面 因子 和 技术 面 因 子 的 构成 方法 后 ， 第 8 章 内 容 将 围绕 这 方面 展开 。 作 者 
将 带领 读者 完成 一 个 关于 指数 强化 基金 的 配置 。 

人 人 都 是 基金 经 理 ， 你 也 可 以 ! 
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ss 8 = 


人 人 都 是 基金 经 理 一 一 


中 证 红利 指 


EXCE DI 


人 人 都 是 基金 经 理 。 

对 于 基金 经 理 这 个 词 读者 可 能 非常 熟悉 ， 那 些 掌管 几 十 
场 运筹 帷 悍 、 指 点 江山 、 挥 斥 方 遂 、 好 不 潇洒 的 股市 健儿 就 是 

作为 一 个 基金 经 理 ， 一 般 要 求 具有 金融 相关 专业 硕士 以 


础 和 扎实 的 经 济 理论 功底 ， 如 有 海外 留学 经 历 或 获得 CFA 
理 的 工作 是 负责 决定 该 基金 的 组 合 和 投资 策略 ， 投 资 组 合 是 
择 ， 投 资 策 略 由 该 基金 经 理 决定 。 

做 基金 经 理 难 吗 ? 

是 的 ， 做 一 个 基金 经 理 很 难 。 

人 人 都 可 以 成 为 基金 经 理 吗 ? 

是 的 ， 人 人 都 可 以 成 为 基金 经 理 。 

通过 学 习 相关 的 内 容 与 投资 组 合 策略 ， 任 何人 都 可 以 成 
以 中 证 红利 为 基础 介绍 通过 构建 指数 增强 基金 ， 在 这 个 过 程 


亿 甚 至 于 上 百 亿 资金 ， 在 证 券 市 
:人 们 印象 中 的 基金 经 理 。 

上 教育 背景 ， 具 备 良 好 的 数学 基 
证 书 ， 则 将 更 具 竞 争 力 。 基 金 经 
按照 基金 说 明 书 的 投资 目标 去 选 


为 一 名 合格 的 基金 经 理 。 本 章 将 
iege 习 以 前 学 到 的 内 容 ， 


综合 运用 基本 面 因子 和 多 种 技术 因子 ， 并 且 通 过 最 终 的 回 测验 证 基金 组 合 的 收益 和 成 果 。 


本 章 只 是 一 个 指数 增强 组 合 的 例子 ， 如 果 读 者 将 其 用 于 真实 的 股票 组 合 和 操作 ， 还 需要 


进一步 细致 和 专业 地 对 其 进行 分 析 和 处 理 。 


中 证 红利 指数 基金 介绍 


本 节 从 理论 开始 介绍 ， 如 果 读 者 已 经 有 人 金融 相关 从 业经 验 ， 


那么 可 以 忽略 本 节 。 


8.1.1 红利 指数 基金 的 由 来 


红利 策略 最 初 叫 作 “ 狗 股 策略 ” (Dogs of the Dow Theory) ， 是 由 美国 基金 经 理 迈 克 尔 : 奥 
希 金 斯 在 1991 年 提出 的 。 该 策略 的 具体 做 法 是 每 年 年 底 在 道琼斯 工业 平均 指数 成 分 股 中 找 出 10 
只 股息 率 最 高 的 股票 ， 新 年 买 入 ， 一 年 后 按 股 息 率 高 低 更 新 股票 池 ， 如 此 循环 往复 。 

如 果 将 股息 率 最 高 的 股票 按 一 定 方法 编制 成 指数 ， 该 指数 就 叫 作 “红利 指数 ”， 围 绕 红 
利 指数 进行 的 一 系列 投资 方式 ， 例 如 指数 定投 、 指 数 长 持 等 ， 都 属于 “红利 策略 ”的 范畴 。 

据 投 资 百 科 〈Investopedia) 统计 ， 狗 股 策略 在 1957 年 -2003 年 期 间 的 年 均 回 报 率 为 
14.3%， 高 于 道 指 11% 的 年 均 回 报 率 。 而 在 1973 年 ~1996 年 ， 狗 股 策略 年 均 回 报 率 达 
20.3%， 高 于 道 指 同期 15.8% 的 平均 回报 率 。 数 据 证 明 ， 狗 股 /红利 策略 长 期 来 看 是 能 够 战胜 
市 场 平均 的 。 


8.1.2 ”中 证 红利 简介 

中 证 指数 有 限 公 司 2005 年 5 月 12 日 宣布 ， 为 反映 沪 深 证 券 市 场 高 股息 股票 的 整体 走 
势 ， 为 投资 者 提供 新 的 业绩 基准 和 投资 标的 ， 将 于 5 月 26 日 正式 发 布 中 证 红利 指数 。 

中 证 红利 指数 挑选 了 上 海 、 深 圳 交易 所 中 现金 股息 率 高 、 分 红 比 较 稳定 、 具 有 一 定 规模 
及 流动 性 的 100 只 股票 作为 样本 ， 以 反映 A 股市 场 高 红利 股票 的 整体 状况 和 走势 。 基 日 为 
2004 年 12 月 31 日 ， 基 点 为 1000 点 。 中 证 红利 指数 简称 “中 证 红利 ”， 指 数 代 码 为 000922 
(上 海 ) /399922 (深圳 ) 。 

目前 来 说 ， 中 证 红利 指数 的 主要 权重 行业 集中 在 钢铁 、 电 力 、 石 化 、 汽 车 、 航 运 、 煤 
A. AGE. Mab, HF A 股市 场 而 言 ， 有 持续 分 红 能 力 的 公司 是 稀缺 资源 ， 只 占 整 个 市 场 
的 三 成 左右 。 分 给 投资 人 的 真 金 白银 显示 了 这 类 公司 良好 的 财务 状况 与 内 在 价值 。 

从 近 5 年 的 走势 来 看 〈 见 图 8-1) ， 自 2015 年 6 月 A 股 自 高 点 回落 进入 震荡 市 以 来 ， 中 
证 红利 指数 长 期 跑 赢 大 盘 。 值 得 一 提 的 是 ， 随 着 价值 的 回归 ， 在 大 盘 蓝 筹 和 行业 龙头 备 受 市 
场 关 注 的 同时 ， 红 利 投资 策略 的 优势 更 为 明显 。 


399002 szI 中 证 红利 | > BBE 130905~ 18 0308(1267 晶 )| 


wu 1508 


8-1 中 证 红利 基金 走势 
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从 历史 数据 来 看 〈 见 图 8-2) ， 中 证 红利 指数 5 FRKA (TM) 均 未 超过 10 倍 ， 
而 A 股 大 盘 5 ORDO (TTM) 为 14.02 倍 。 相 比 之 下 ， 红 利 指数 的 估 值 仍 处 在 相 
对 较 低 的 位 置 ， 投 资 价 值 明 显 。 


交易 时 间 
2017.12.29 


2016.12.30 


2015.12.31 


2014.12.31 


2013.12.31 


图 8-2 ”中 证 红利 市 盈 率 与 市 净 率 


中 证 红利 指数 的 行业 权重 主要 分 布 在 金融 地 产 、 可 选 消费 、 工 业 、 公 共事 业 等 聚集 着 大 
量 白马 蓝筹 价值 股 的 行业 ， 如 图 8-3 所 示 。 而 同时 ，A 股市 场 追踪 中 证 红利 的 市 场 有 多 个 指 
数 基金 ， 从 成 立 至 今 也 取得 了 不 少 成 就 。 


mit 
田原 材料 
加 工业 

加 可 选 消费 
加 主要 消费 
加 医药 卫生 
四 金融 地 产 
mía BR 
四 公用 事业 


0.6% 
图 8-3 中 证 红利 指数 行业 权重 分 布 


8.2 基于 中 证 红利 的 指数 增强 基金 策略 的 构建 


对 于 不 同 的 指数 特点 和 关系 的 内 容 ， 构 建 基于 其 内 容 的 指数 基金 ， 最 为 合适 的 方法 就 是 
尽 可 能 地 组 合 出 能 够 反映 基金 特点 的 组 合 策略 。 

从 前 文 分 析 来 看 ， 中 证 红利 选择 沪 深 两 市 中 现金 股息 率 高 、 分 红 稳定 、 具 有 一 定 规模 及 
流动 性 的 100 只 股票 ， 其 特点 就 是 稳定 性 强 、 业 绩 较 好 ， 同 时 具有 一 定 的 规模 。 但 是 由 于 要 
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求 其 稳定 性 ， 对 其 个 股 的 成 长 性 并 没有 太 大 要 求 。 
因此 ， 基 于 分 析 可 以 得 出 ， 对 于 中 证 红利 ， 主 要 有 以 下 几 个 方面 要 进行 关注 。 
€ KB: 股息 率 (Dividend Yield Ratio) 是 一 年 的 总 派 息 额 与 当时 市 价 的 比例 。 以 
占 股票 最 后 销售 价格 的 百分数 表示 年 度 股 息 ， 该 指标 是 投资 收益 率 的 简化 形式 。 股 
息 率 是 股息 与 股票 价格 之 间 的 比率 。 在 投资 实践 中 ， 股 息 率 是 衡量 企业 是 否 具有 投 
资 价值 的 重要 标尺 之 一 。 
€ PEE: 市 净 率 指 的 是 每 股 股 价 与 每 股 净 资 产 的 比率 。 市 净 率 可 用 于 股票 投资 分 
析 ， 一 般 来 说 市 净 率 较 低 的 股票 ， 投 资 价值 较 高 ， 相 反 则 投资 价值 较 低 。 但 在 判断 
投资 价值 时 ， 还 要 考虑 当时 的 市 场 环境 以 及 公司 经 营 情况 、 爱 利 能 力 等 因素 。 
€ PAX: PA (Price Eamings ratio, PP P/E ratio) 也 称 “ 本 益 比 ”“ 股 价 收益 比 
率 ” 或 “市 价 盈 利 比 率 ”。 
e 贝塔 值 : 与 大 盘 的 联动 波动 率 。 
e HHXH: 自身 的 波动 率 。 
基于 以 上 分 析 ， 本 节 开 始 构建 基于 中 证 红利 的 指数 增强 基金 ， 综 合 运用 以 上 指标 ， 拱 建 
一 个 能 够 获取 高 收益 、 高 稳 态 、 低 风险 的 收益 组 合 。 


8.2.1 中 证 红利 策略 的 构建 方法 
通过 前 面 的 学 习 可 以 知道 ， 对 于 组 合 的 构建 最 基本 的 就 是 找到 若干 只 符合 要 求 的 股票 ， 
组 合成 一 个 股票 池 ， 这 个 股票 池 反 映 的 是 构建 者 的 认 知 与 能 力 。 


基本 面 因 子 的 获取 


基本 面 因子 是 中 证 红利 构成 因子 的 基础 ， 在 这 里 主要 选用 市 净 率 、 市 表率 以 及 股息 率 作 
为 基本 的 选 股 要 求 ， 代 码 如 下 : 
df = get fundamentals (table='trading derivative indicator', 


symbols-symbol list,start date-last day,end date-last day,fields-'PETTM,DY,PB', 
df-True) 


除 此 之 外 ， 还 需要 添加 波动 率 因子 ， 前 面 在 介绍 技术 因子 时 对 其 也 有 涉及 ， 这 里 根据 需 
要 采用 了 两 个 技术 因子 : Beta 值 与 自 相关 波动 率 ， 代 码 如 下 : 
# 这 里 使 用 收益 进行 计算 


def get beta weight 2(symbol,now,count,market index = "SHSE.000001"): 


"nn 


一 般 用 单个 股票 资产 的 历史 收益 率 对 同期 指数 〈 大 盘 ) 收益 率 进 行 回归 ， 回 归 系 数 就 是 Beta 系数 。 


"nn 


last day = get previous trading date ("SHSE",now) 
market data = history n(symbol-market index, frequency="1d", count=count, 
end time-last day, 


fields-"high,low,close", 
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fill missing-"last") 


market close = msci tools.get data value (market data,"close") 


market close ratio - [] 

for i in range(1,len(market close)): 
ratio - (market close[i] - market close[i-1])/market close[i-1] 
ratio — (0.99 ** (len(market close) - i)) * ratio 


market close ratio.append (ratio) 


symbol data — history n(symbol-symbol, frequency-"ld", count-count, 


fields-"high,low,close", 


fill missing-"last") 
symbol close - msci tools.get data value(symbol data,"close") 


symbol close ratio - [] 

for i in range(1,len(symbol close)): 
ratio = (symbol close[i] - symbol close[i-1])/symbol close[i-1] 
ratio — (0.99 ** (len(market close) - i)) * ratio 


symbol close ratio.append (ratio) 


market close ratio - sm.add constant(market close ratio) 


model = sm.OLS(symbol close ratio, market close ratio) 
results = model .fit() 
weight = (results .params[1]) 


return weight 


而 Beta 值 的 计算 如 下 : 


# 波 动 率 的 简单 方法 


def get volatility normal (symbol,now,count): 


last day = get previous trading date ("SHSE",now) 


data = history n(symbol-symbol, frequency="1d", count=count, 


end_time=last_day, fields="high, low, close", fill_missing="last") 


close = msci tools.get data value (data, "close") 
res = np.var (close) /np.mean (close) 


res = np.sqrt (res) 


return res 


这 里 为 了 方便 起 见 ， 波 动 率 采用 了 收益 率 的 计算 方法 ， 而 Beta 值 的 计算 采用 了 简单 的 计 
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算 方法 ， 即 变异 系数 的 平方 根 。 完 整 代码 如 下 : 


def bonus cn(now,index = "SHSE.000922"): 
last day = get previous trading date ("SHSE",now) 


symbol list — get history constituents (index-index, 
start date-last day) [0] .get ("constituents") .keys() 

symbols not suspended - get history instruments (symbols-symbol list, 
start date-last day, end date-now) 
symbols not suspended = [item['symbol'] for item in symbols not suspended if 


not item['is suspended']] 


df = get fundamentals (table-'trading derivative indicator', 
symbols-symbol list,start date-last day,end date-last day,fields-'PETTM,DY,PB', 
df-True) 


df = df.dropna() 

symbol list = [] 

for in df["symbol"].values: 
symbol list.append( ) 


beta list = [] 

volatility list - [] 

for symbol in symbol list: 
beta = fun.get beta weight 2 (symbol,now,count-20) 
beta list.append (beta) 


volatility = fun.get volatility normal (symbol, now, count=60) 


volatility list.append(volatility) 


df["beta"] = beta list 
df["volatility"] = volatility list 


df factor - df.iloc[:,3:] 

df factor - np.asmatrix(df factor) 

weight mat = np.asmatrix([[1], [-1], [1], [1], [11]) 
res = np.dot(df factor,weight mat) 


df["score"] = (res) 


df — (df.sort values(["score"])) 

symbol list — [] 

for _ in df["symbol"].values: 
symbol list.append( ) 
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return symbol list 

这 里 的 代码 段 采 用 了 模块 法 ，index 是 中 证 红利 的 指数 代码 ， 这 样 做 的 好 处 是 可 以 用 其 他 
指数 代码 代替 当前 的 中 证 红利 。 之 后 根据 设 定 的 技术 因子 和 基本 面 因子 获取 对 应 的 数据 值 ， 
构建 出 因子 矩阵 。 

对 于 构建 出 的 因子 矩阵 ， 下 一 步 是 计算 出 对 应 的 因子 值 。 目 前 来 说 ， 采 用 的 是 等 权重 的 
方法 ， 根 据 对 应 的 因子 数据 高 低 对 股份 的 影响 是 正 相关 还 是 负 相 关 ， 把 权重 值 简单 设置 成 1 
或 -1。 


8.22 策略 回 测 与 优化 
由 于 一 些 原因 ， 作 者 不 能 公开 相应 的 写法 ， 因 此 这 里 只 放出 一 张 回 测 图 供 大 家 参考 ， 如 
图 8-4 所 示 。 


TN te "UN ce ee Co illad Mn 


84 中 证 红利 回 测 结果 


提示 ， 对 于 不 同 的 数据 ， 其 权重 值 并 不 一 定 相同 ， 这 在 增加 了 回 测 难度 的 同时 也 增加 了 
优化 空间 。 这 点 需要 读者 自行 完成 。 


8.3 ne 


构建 一 个 基于 指数 的 指数 增强 组 合 的 步骤 如 下 : 


COD 根据 自己 的 目标 找到 对 应 特征 的 指数 。 
(2) 综合 采用 多 个 因子 增强 指数 的 特征 。 
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本 章 中 采用 中 证 红利 作为 基本 示例 ， 演 示 了 构建 一 个 基于 已 有 指数 的 指数 增强 基金 。 对 
于 不 同 的 指数 ， 如 果 需 要 构建 对 应 的 指数 增强 组 合 ， 最 重要 的 任务 是 根据 其 标的 特征 采用 多 
个 因子 增强 所 关注 的 方向 ， 这 也 是 构建 指数 增强 组 合 的 基础 。 

除了 中 证 红利 指数 外 ， 掘 金 网 站 提供 了 更 多 的 指数 作为 解析 的 标的 ， 如 图 8-5 所 示 。 


指数 代码 指数 名 称 启用 日 期 BHAR 。 成 分 股 开始 日 期 — 成 分 股 结束 日 期 — 有 没有 
1991- 
SHSEO00001 。 上 证 指数 一 2011-09-30 E 5 
07-15 
SHSE.000002 。 A 股指 数 1992; 一 2011-09-30 ES a 
02-21 
1992- 
SHSE.000003 。 8 服 指数 vex. |= 2011-09-30 BS 5 
SHsE000004 rum — 1998 2011-09-30 至 人 有 
05-03 = 
1993- 
SHSE000005 FRIAR oso T 2011-09-30 ze a 
1993- 
SHsEO0006 SBN 05-03 T 2011-09-30 ES a 
1993- > 
SHSEO00007 公用 指数 一 2011-09-30 E 5 
05-03 
T 1993- 
SHSE000008 AN 05-03 T 2011-09-30 BS a 


图 8-5 部 分 其 他 指数 


除了 一 些 特定 的 指数 外 ， 大 多 数据 金 网 站 上 的 指数 都 可 以 被 特定 解析 ， 解 析 的 函数 在 前 
面 也 有 介绍 。 而 对 于 特定 指数 的 特点 和 偏向 ， 通 过 查阅 相关 说 明 也 是 可 以 了 解 的 。 具 体 组 建 
哪 种 形态 的 股票 组 合 ， 这 点 需要 “基金 经 理 ” 来 决定 ， 也 就 是 股票 组 合 创建 人 通过 自己 的 认 
知 和 股票 组 合 的 侧重 点 来 设计 组 合 。 

关于 多 因子 策略 的 学 习 这 里 就 告 一 段落 ， 下 一 章 将 带领 读者 学 习 量化 策略 的 另 一 大 方 
面 ， 即 回归 分 析 ， 这 也 是 最 常用 的 量化 处 理 的 方法 之 一 。 

这 里 股票 池 的 构建 还 是 使 用 对 指数 的 解析 ， 在 后 续 的 学 习 中 还 会 介绍 使 用 多 种 方法 构建 
满足 需要 的 股票 池 ， 这 也 是 后 面 学 习 的 一 个 重点 。 
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mo = 


第 9 章 
< 掘 金 量 化 一 一 回归 分 析 基 础 > 


前 面 作者 用 3 章 向 读者 介绍 了 量化 策略 中 一 个 非常 重要 的 策略 分 支 一 一 多 因子 策略 。 

所 谓 多 因子 策略 ， 就 是 根据 各 个 因子 的 大 小 对 股票 进行 打分 ， 然 后 按照 一 定 的 权重 加 权 
得 到 一 个 总 分 ， 最 后 根据 总 分 再 对 股票 进行 筛选 。 对 于 多 因子 模型 的 评价 而 言 ， 实 际 上 通过 
评分 法 回 测 出 的 股票 组 合 收 益 率 ， 就 能 够 对 备 选 的 选 股 模型 做 出 优 劣 评价 。 

这 种 方法 的 优点 是 相对 比较 稳健 ， 不 容易 受到 极端 值 的 影响 。 但 是 多 因子 策略 需要 对 各 
个 因子 的 权重 做 一 个 相对 比较 主观 的 设 定 ， 这 也 是 多 因子 策略 在 实际 模型 评价 过 程 中 比较 困 
难 和 需要 模型 求 取 的 关键 点 所 在 ， 同 时 这 也 能 够 获得 优化 的 空间 。 多 因子 策略 模型 图 如 图 9-1 
所 示 。 


候选 因子 选择 —! 


VY 
TRATH 

ir 
选 股 模型 建立 和 选 股 


模型 持续 改进 p 


图 9-1 多 因子 策略 模型 图 
本 章 开 始 将 介绍 另 一 种 常用 的 量化 策略 一 回归 分 析 ， 这 也 是 最 为 常用 的 一 种 分 析 广 
法 ， 它 可 以 用 在 股价 的 回归 分 析 上 ， 同 时 还 可 以 对 基本 面 数据 进行 分 析 ， 这 点 在 之 后 的 讲解 
中 会 介绍 。 


回归 分 析 基 础 


归 分 析 预 测 法 是 在 分 析 市 场 现象 自 变 量 和 因 变 量 之 间 相关 关系 的 基础 上 ， 建 立 变量 之 


E 


间 的 回归 方程 ， 并 将 回归 方程 作为 预测 模型 ， 根 据 自 变量 在 预测 期 的 数量 变化 来 预测 因 变 量 
关系 ， 大 多 表现 为 相关 关系 。 因 此 ， 回 归 分 析 预 测 法 是 一 种 重要 的 市 场 预测 方法 。 

当 对 股市 或 者 其 他 金融 市 场 现象 未 来 的 发 展 状况 和 水 平 进行 预测 时 ， 如 果 能 将 影响 预测 
对 象 的 主要 因素 找到 ， 并 且 能 够 取得 其 数量 资料 ， 就 可 以 采用 回归 分 析 预 测 法 进行 预测 。 回 
归 分 析 预 测 法 是 一 种 具体 的 、 行 之 有 效 的 、 实 用 价值 很 高 的 常用 预测 方法 ， 多 用 于 中 短期 预 
测 。 


9.1.1 回归 法 简介 

在 处 理 测量 数据 时 ， Ra 变量 之 间 的 关系 一 般 分 为 两 种 ， 一 种 

完全 确定 关系 ， 即 函数 关系 ， 另 一 种 是 相关 关系 ， 即 变量 之 间 既 存在 着 密切 联系 ， 但 又 不 
能 由 一 个 或 多 个 变量 的 值 求 出 另 一 a 

例如 ， 学 生 对 于 高 等 数学 、 概 率 与 统计 、 普 通 物 理 的 学 习 ， 会 对 统计 物理 的 学 习 产 生 影 
响 ， 它 们 虽然 存在 着 密切 的 关系 ， 但 很 难 从 前 几 门 功课 的 学 习 成 绩 来 精确 地 求 出 统计 物理 的 
= 对 于 彼此 联系 比较 紧密 的 变量 ， 人 们 总 希望 建立 一 定 的 公式 ， 以 便 变 量 之 间 互 相 
推测 。 回 归 分 析 的 任务 就 是 用 数学 表达 式 来 描述 相关 变量 之 间 的 关系 。 


e 多 元 回归 是 指 一 个 因 变 量 (预报 对 象 ) 、 多 个 自 变量 ( 预报 因子 ) 的 回归 模型 。 基 
本 方法 是 根据 各 变量 的 值 算出 交叉 乘积 和 。 
@ ”这 种 包括 两 个 或 两 个 以 上 自 变 量 的 回归 称 为 多 元 回归 。 应 用 此 方法 可 以 加 深 对 定性 
分 析 结论 的 认识 ， 并 得 出 各 种 要 素 间 的 数量 依存 关系 ， 从 而 进一步 揭示 出 各 要 素 间 
内 在 的 规律 。 
© 一般 来 说 ， 多 元 回归 过 程 能 同时 提供 多 个 备 选 的 函数 关系 式 ， 并 提供 每 个 关系 式 对 
实验 数据 的 理解 能 力 ， 研 究 者 可 以 结合 自己 的 理论 预期 ， 据 此 做 出 选择 。 
回归 分 析 预 测 法 有 多 种 类 型 。 依 据 相关 关系 中 自 变量 的 个 数 不 同 进行 分 类 ， 可 分 为 一 元 
回归 分 析 预 测 法 和 多 元 回归 分 析 预 测 法 。 在 一 元 回归 分 析 预 测 法 中 ， 自 变量 只 有 一 个 ， 而 在 
多 元 回归 分 析 预 测 法 中 ， 自 变量 有 两 个 以 上 。 依 据 自 变量 和 因 变 量 之 间 的 相关 关系 不 同 ， 可 
分 为 线性 回归 预测 和 非 线性 回归 预测 。 


9.1.2 一 元 线性 回归 

回归 分 析 只 涉及 两 个 变量 的 ， 称 为 一 元 回归 分 析 ( 见 图 9-2) 。 一 元 回归 的 主要 任务 是 
根据 两 个 相关 变量 中 的 一 个 变量 去 估计 另 一 个 变量 ， 被 估计 的 变量 称 为 因 变量 ， 可 设 为 Y: 
估计 出 的 变量 称 为 自 变 量 ， 设 为 X。 回 归 分 析 就 是 要 找 出 一 个 数学 模型 YAX), EA X fii 
计 立 可 以 用 一 个 函数 式 去 计算 。 
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9-2 一 元 线性 回归 


当 Y=f(%) 的 形式 是 一 个 直线 方程 时 ， 称 为 一 元 线性 回归 。 这 个 方程 一 般 可 表示 为 
Y=A+BX。 根 据 最 小 平方 法 或 其 他 方法 ， 可 以 从 样本 数据 中 确定 常数 项 A 与 回归 系数 B 的 
值 。A、B 确定 后 ， 有 一 个 X 的 观测 值 ， 就 可 得 到 一 个 Y 的 估计 值 。 回 归 方程 是 否 可 靠 ， 估 
计 的 误差 有 多 大 ， 都 要 经 过 显著 性 检验 和 误差 计算 。 有 无 显著 的 相关 关系 以 及 样本 的 大 小 
等 ， 是 影响 回归 方程 可 靠 性 的 因素 。 

一 元 线性 回归 方程 的 形式 

如 果 只 有 一 个 自 变量 X, MAARE Y MARE X 之 间 的 数量 变化 关系 呈 近 似 线性 关 
系 ， 就 可 以 建立 一 元 线性 回归 方程 ， 由 自 变量 X 的 值 来 预测 因 变 量 Y 的 值 ， 这 就 是 一 元 线性 
回归 预测 。 

如 果 因 变量 Y 和 自 变 量 X 之 间 呈 线性 相关 ， 也 就 是 说 ， 对 于 自 变量 X 的 某 一 个 值 ， 因 
变量 Y 对 应 的 取 值 不 是 唯一 确定 的 ， 而 是 有 很 多 可 能 的 取 值 ， 它 们 分 布 在 一 条 直线 的 上 下 ， 
这 是 因为 Y 还 受 除 自 变量 以 外 的 其 他 因素 的 影响 。 这 些 因 素 的 影响 大 小 和 方向 都 是 不 确定 
的 ， 通 常用 一 个 随机 变量 ( 记 为 E〉 来 表示 ， 也 称 为 随机 扰动 项 。 于 是 ，Y 和 X 之 间 的 依存 
关系 可 表示 为 : 


yHatpxte 
上 面 就 是 总 体 的 一 元 线性 回归 模型 。 其 中 mg Aen. BAPE AACE BOM (T B 
机 变量 。 一 般 为 了 便于 求解 ， 将 上 述 公式 表示 为 : 


y=a+bx 


a Fil b 分 别 为 总 体 回 归 方程 参数 op 的 估计 量 ，a 是 样本 回归 方程 的 常数 项 ， 也 就 是 样本 
回归 直线 在 立轴 上 的 截 距 ， 表 示 除 自 变量 X 以 外 的 其 他 因素 对 因 变量 Y 的 平均 影响 量 ; b 是 
样本 回归 系数 ， 即 样本 回归 直线 的 斜率 ， 表 示 自 变量 和 每 增加 一 个 单位 ， 因 变量 Y 的 平均 增 
加 量 。 
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换 名 话说， 回归 算法 是 一 种 基于 已 有 数据 的 预测 算法 ， 其 目的 是 研究 数据 特征 因子 与 结 
果 之 间 的 因果 关系 。 举 个 经 典 的 例子 ， 表 9-1 为 某 地 区 房屋 面积 与 价格 之 间 的 对 应 表 。 

表 9-1 某 地 区 房屋 面积 与 价格 对 应 表 

| 价格 CERO BR (PAK) 


| 200 105 


80 


为 了 简单 起 见 ， 在 该 表 中 只 计算 了 一 个 特征 值 〈 房 屋 的 面积 ) 和 一 个 结果 数据 (房屋 的 
价格 ) ， 因 此 可 以 使 用 数据 集 构建 一 个 直角 坐标 系 ， 如 图 9-3 所 示 。 


9-3 ”房屋 面积 与 价格 回归 表 
由 图 9-3 可 见 ， 数 据 集 的 目的 是 建立 一 个 线性 方程 组 ， 能 够 对 所 有 的 点 距离 无 限 地 接 


近 ， 即 价格 能 够 根据 房屋 的 面积 大 小 决定 。 
同时 ， 可 以 据 此 得 到 一 个 线性 方程 组 : 


h(x)=0,+0Ox 


更 进一步 ， 如 果 将 其 设计 为 一 个 多 元 线性 回归 的 计算 模型 ， 例 如 添加 一 个 新 的 变量 : 独 
立 卧 室 数 ， 那 么 数据 表 如 表 9-2 所 示 。 
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表 9-2 某 地 区 房屋 面积 与 价格 对 应 表 
BR FAK) 
105 


| 价格 CERO 
| 200 


80 


据 此 得 到 的 线性 方程 组 为 : 


h(x) = @, + Ox Ox 


可 以 看 到 ， 回 归 计算 的 建 模 能 力 是 非常 强大 的 ， 其 可 以 根据 每 个 特征 去 计算 结果 ， 能 够 
较 好 地 体现 特征 值 的 影响 。 同 时 ， 从 上 面 的 内 容 可 以 看 到 ， 每 个 回归 模型 都 可 以 由 一 个 回归 
函数 表现 出 来 ， 这 样 能 够 较 好 地 表现 出 特征 与 结果 之 间 的 关系 。 


9.1.3 ”多 元 线性 回归 

除了 一 元 线性 回归 外 ， 研 究 一 个 因 变量 与 两 个 或 两 个 以 上 自 变量 的 回归 ， 称 为 多 元 线性 
回归 ， 是 反映 一 种 现象 或 事物 的 数量 依 多 种 现象 或 事物 的 数量 的 变动 而 相应 地 变动 的 规律 ， 
建立 多 个 变量 之 间 线 性 或 非 线性 数学 模型 数量 关系 式 的 统计 方法 。 

多 元 线性 回归 的 基本 原理 和 基本 计算 过 程 与 一 元 线性 回归 相同 ， 但 由 于 自 变量 个 数 多 ， 
计算 相当 麻烦 ， 一 般 在 实际 中 应 用 时 都 要 借助 统计 软件 。 这 里 只 介绍 多 元 线性 回归 的 一 些 基 
本 问题 。 

但 由 于 各 个 自 变 量 的 单位 可 能 不 一 样 ， 比 如 一 个 消费 水 平 的 关系 式 中 ， 工 资 水 平 、 受 教 
育 程度 、 职 业 、 地 区 、 家 庭 负 担 等 因素 都 会 影响 到 消费 水 平 ， 而 这 些 影响 因素 〈 自 变量 ) 的 
单位 显然 是 不 同 的 ， 因 此 自 变量 前 系数 的 大 小 并 不 能 说 明 该 因素 的 重要 程度 ， 简 单 来 说 ， 同 
样 的 工资 收入 ， 如 果 用 元 为 单位 就 比 用 百 元 为 单位 所 得 的 回归 系数 要 小 ， 但 是 工资 水 平 对 消 
费 的 影响 程度 并 没有 变 ， 所 以 得 想 办 法 将 各 个 自 变量 化 到 统一 的 单位 上 来 。 

举例 来 说 ，x1、x2、xa…… 是 N 个 可 以 精确 测量 或 者 可 控制 的 变量 ， 如 果 变 量 y 与 多 个 x 
值 的 联系 是 线性 的 ， 那 么 进行 N 次 试验 后 ， 可 以 获得 N 组 数据 ， 相 互 关 系 如 下 

yi = bo + by x41 + b2x12 十 … 十 Dpxip + €1 
Y2 = bo + by x21 十 bzxzz 十 … 十 Dpxzp + £2 


Yn = bo + bixni 十 bzxnz 十 … 十 byXnp ter 


其 中 的 多 个 b 是 待 测 参数 ，s 是 随机 因子 对 y 的 影响 。 
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9.1.4 回归 法 的 解法 一 一 最 小 二 乘法 详解 

最 小 二 乘法 (LS 算法 ) 是 一 种 数学 优化 技术 ， 也 是 一 种 回归 分 析 的 常用 解法 。 它 通过 最 
小 化 误差 的 平方 和 寻找 数据 的 最 佳 函数 匹配 。 利 用 最 小 二 乘法 可 以 简便 地 求 得 未 知 的 数据 ， 
并 使 得 这 些 求 得 的 数据 与 实际 数据 之 问 误差 的 平方 和 最 小 。 最 小 二 乘法 还 可 用 于 曲线 拟 合 ， 
其 他 一 些 优化 问题 也 可 通过 最 小 化 能 量 或 最 大 化 粒 用 最 小 二 乘法 来 表达 。 

下 面 通过 一 个 图 示 向 读者 演示 最 小 二 乘法 的 原理 ， 如 图 9-4 所 示 。 
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9-4 最 小 二 乘法 的 原理 


从 图 9-4 可 以 看 到 ， 若 干 个 点 依次 分 布 在 向 量 空间 中 ， 如 果 希 望 找 出 一 条 直线 和 这 些 点 
达到 最 佳 匹配 ， 最 简单 的 方法 就 是 希望 这 些 点 到 直线 的 值 最 小 ， 即 下 面 的 最 小 二 乘法 实现 公 
式 最 小 。 


f(x) =ax+b 
5= 2 gx) -»* 


这 里 直接 应 用 真实 值 与 计算 值 之 间 的 差 的 平方 和 ， 这 种 差 值 有 个 专门 的 名 称 为 “ 残 
差 ”。 基 于 此 ， 表 达 残 差 的 方式 有 以 下 三 种 。 

e tä: 残 差 绝对 值 的 最 大 值 思 ax,|ril， 即 所 有 数据 点 中 残 差距 离 的 最 大 值 。 

@ Ll- 范 数 : 绝对 残 差 和 2Pi lil， 即 所 有 数据 点 残 差距 离 之 和 。 

€ LK: 残 差 平方 和 i 这. 

可 以 看 到 ， 所 谓 的 最 小 二 乘法 也 就 是 L2- 范 数 的 一 个 具体 应 用 。 通 俗 地 说 ， 就 是 看 模型 
计算 的 结果 与 真实 值 之 间 的 相似 性 。 

因此 ， 最 小 二 乘法 可 由 如 下 公式 定义 : 

对 于 给 定 的 数据 Gp)(i=1.…,m)， 在 确定 的 假设 空间 HO, RE fx) eH， 使 得 残 差 
5=Difx)-yiy 的 2- 范 数 最 小 。 

看 到 这 里 ， 可 能 有 读者 会 提出 疑问 ， 这 里 的 fw) 又 该 如 何 表示 呢 ? 实际 上 ， 函 数 ftx) 是 一 
条 多 项 式 曲线 : 
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f (x, w) = wotwox + wox? + wox? + + wx" 


继续 讨论 下 去 ， 最 小 二 乘法 就 是 找到 这 么 一 组 权重 w， 使 得 5 fco- 2 最 小 。 那 么 问 
题 就 来 了 ， 如 何 能 使 得 最 小 二 乘法 最 小 ? 

对 于 求 出 最 小 二 乘法 的 结果 ， 通 过 数学 上 的 微 积 分 处 理 方法 ， 这 是 一 个 求 极 值 的 问题 ， 
这 里 只 需要 对 权 值 依次 求 偏 导数 ， 最 后 令 偏 导数 为 0， 即 可 求 出 极 值 点 。 


x - 2X7 *twiwi-y)-0 


9f 


aw, = se +wiwi—y)xi=0 


xs = DX + wnwi-y)xi=0 


具体 实现 最 小 二 乘法 的 代码 如 下 。 
【程序 9-1】 


import numpy as np 


from matplotlib import pyplot as plt 


np.array ([[5],[4]]) 
= np.array([[41], [6]]) 
A.T.dot (C) 

AA = np.linalg.inv (A.T.dot (A)) 
l-AA.dot (B) 

P-A.dot (1) 
x-np.linspace(-2,2,10) 
x.shape- (1,10) 
Xx-A.dot (x) 

fig = plt.figure() 

ax- fig.add subplot (111) 
ax. plot(== [Ope p= 5-1) 
ax.plot(A[0],A[1], 'ko') 


Uo» 
I 


ax.plot([C[0],P[0]], [C[1], P[1]], 'r-o') 
ax.plot([0,C[0]], [0,C[1]], 'm-o') 


.axvline (x-0,color-'black') 


RR 


.axhline(y-0,color-'black') 
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margin=0.1 

ax.text(A[0]+margin, A[1]+margin, r"A", fontsize=20) 
ax.text(C[0]+margin, C[1]-margin, r"C", fontsize=20) 
ax.text(P[0]+margin, P[1]+margin, r"P", fontsize=20) 
ax.text (0+margin, 0+margin, r"0", fontsize=20) 

ax.text (0+margin,4+margin, r"y", fontsize=20) 
ax.text (4+margin,0+margin, r"x", fontsize=20) 
plt.xticks (np.arange (-2,3)) 

plt.yticks (np.arange (-2,3)) 


ax.axis('equal') 
plt.show() 


最 终结 果 如 图 9-5 所 示 。 


c 
y 
图 9-5 ”最 小 二 乘法 拟 合 曲线 
在 【程序 9-1】 中 ， 详 细 演 示 了 最 小 二 乘法 的 计算 ， 但 是 在 实际 应 用 中 并 不 需要 每 次 使 
用 最 小 二 乘法 进行 计算 时 都 需要 列 出 详细 的 方法 ，Python 有 专门 的 工具 包 为 读者 提供 计算 最 


小 二 乘法 的 方法 。 


import statsmodels.api as sm 


import numpy as np 

def 一 元 线性 回归 () : 
xi = np-asarray l[i; 2; 3r 4, Dy 6r Ty 8; 9r 101) 
y=10+4* xl 

X = sm.add constant (x1) 
model = sm.OLS(y, x ) 


results - model.fit() 


print (results.params) 


182 


这 里 首先 生成 了 一 个 序列 ， 之 后 根据 这 个 序列 使 用 自 定义 函数 生成 一 个 序列 值 ， 
statsmodels 是 Python 中 的 统计 学 工具 包 。add_constant 生成 一 个 一 元 的 待 估 参 数 函 数 ，OLS 
是 使 用 Python 中 的 最 小 二 乘法 去 估算 生成 的 函数 模型 ， 最 后 打印 结果 如 下 : 

[10. 4.] 

这 里 的 打印 结果 是 系数 和 扰动 噪音 。 读 者 可 以 自行 蔡 换 相关 内 容 。 需 要 注意 的 是 ， 扰 动 
噪音 被 放 在 params 中 的 第 一 个 参数 处 。 

而 对 于 多 元 线性 回归 算法 ， 代 码 如 下 : 


import statsmodels.api as sm 


import numpy as np 


def 多 元 线性 回归 () : 
xl = np.asarray([1,2,3,4,5,6,7,8,9,10]) 
x2 = np.asarray([3,2,1,5,4,6,7,6,9,2]) 


=)10 404) * xl 443" * x2 


y 
X = np.column stack((xl, x2)) 
x = 


sm.add constant (x ) 


model = sm.OLS(y,x ) 
results - model.fit() 


print(results.params) 


这 里 的 参数 设置 与 一 元 线性 回归 类 似 ，column stack 是 NumPy 组 建 的 一 个 多 元 回归 函 
数 ，add_constant 是 添加 扰动 噪音 的 函数 ， 最 后 还 是 通过 最 小 二 乘法 计算 出 最 小 函数 的 结 
果 。 


回归 分 析 的 一 些 其 他 计算 方法 


除了 常用 的 OLS 方法 之 外 ， 还 有 其 他 的 计算 线性 回归 的 方法 ， 例 如 梯度 下 降 算法 和 使 用 
Python 的 TensorFlow 工具 包 计算 回归 分 析 。 


9.2.1 梯度 下 降 算 法 与 使 用 TensorFlow 计算 线性 回归 

除了 最 常用 的 OLS 算法 外 ， 梯 度 下 降 算法 也 是 一 种 常用 的 求解 回归 方程 的 算法 。 在 介绍 
随机 梯度 下 降 算法 之 前 ， 给 大 家 讲 一 个 道士 下 山 的 故事 。 
图 9-6 所 示 为 一 个 模拟 随机 梯度 下 降 算法 的 演示 图 。 为 了 便于 理解 ， 作 者 将 其 比喻 成 首 
士 想 要 出 去 游玩 的 一 座 山 。 
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图 9-6 模拟 随机 梯度 下 降 算 法 的 演示 图 


设想 道 寺 有 一 天 和 道 友 一 起 到 一 座 不 太 熟 悉 的 山上 去 玩 ， 在 兴趣 嚼 然 中 很 快 登 上 了 山 
顶 。 但 是 天 有 不 测 ， 下 起 了 雨 。 如 果 这 时 需要 道士 和 其 同 来 的 道 友 以 最 快 的 速度 下 山 ， 那 么 
怎么 办 呢 ? 

最 好 的 办 法 是 顺 着 坡度 最 陡峭 的 地 方 走 下 去 。 但 是 由 于 不 熟悉 路 ， 道 士 在 下 山 的 过 程 
中 ， 每 走 过 一 段 路 程 ， 就 需要 停 下 来 观望 ， 从 而 选择 最 陡峭 的 下 山路 。 这 样 一 路 走 下 来 的 
话 ， 可 以 在 最 短 时 间 内 走 到 底 。 

图 9-6 中 的 路 线 可 以 近似 地 表示 为 : 

$-0-6-6-6-0-0 

每 个 数字 代表 每 次 停顿 的 地 点 ， 这 样 只 需要 在 每 个 停顿 的 地 点 选择 最 陡峭 的 下 山路 即 可 。 

这 就 是 道士 下 山 的 故事 。 随 机 梯度 下 降 算 法 与 此 类 似 ， 如 果 想 要 使 用 最 迅捷 的 方法 ， 最 
简单 的 办 法 就 是 在 下 降 一 个 梯度 的 阶层 后 ， 寻 找 一 个 当前 获得 的 最 大 坡度 继续 下 降 。 这 就 是 
随机 梯度 算法 的 原理 。 

从 上 面 的 例子 可 以 看 出 ， 随 机 梯度 下 降 算法 就 是 不 停 地 寻找 某 个 节点 中 下 降幅 度 最 大 的 
那个 趋势 进行 迭代 计算 ， 直 到 将 数据 收缩 到 符合 要 求 的 范围 为 止 。 通 过 数学 公式 计算 的 话 ， 
公式 如 下 : 

f(8) = goxo + 0x, 十 … 十 gxn=2 Oixi 

前 面 介 绍 最 小 二 乘法 的 时 候 ， 说 明了 直接 求解 最 优化 变量 的 方法 ， 也 介绍 了 在 求解 过 程 
中 的 前 提 条 件 是 要 求 计算 值 与 实际 值 的 偏差 的 平方 最 小 。 

但 是 在 随机 梯度 下 降 算法 中 ， 对 于 系数 需要 不 停 地 求解 出 当前 位 置 下 最 优化 的 数据 。 通 
过 数学 方式 表达 的 话 ， 就 是 不 停 地 对 系数 9 求 偏 导 数 ， 公 式 如 下 : 

se =E EO- Y)22 Q(0) - y)» 

ARF, 0 会 向 着 梯度 下 降 最 快 的 方向 减少 ， 从 而 推断 出 © 的 最 优 解 。 

因此 ， 可 以 说 随机 梯度 下 降 算 法 最 终 被 归结 为 通过 迭代 计算 特征 值 从 而 求 出 最 合适 的 
值 。9 求解 的 公式 如 下 : 
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6-0—o(f(6)-y) x 


公式 中 ，a 是 下 降 系 数 ， 用 较为 通俗 的 话 表示 就 是 用 以 计算 每 次 下 降 的 幅度 大 小 。 系 数 
越 大 ， 每 次 计算 中 的 差 值 越 大 ， 而 系数 越 小 ， 差 值 越 小 ， 但 是 计算 时 间 也 相对 延长 。 
随机 梯度 下 降 算法 模型 如 图 9-7 所 示 。 


9-7 ”随机 梯度 下 降 算法 过 程 


从 图 9-7 中 可 以 看 到 ， 实 现 随机 梯度 下 降 算 法 的 关键 是 拟 合算 法 的 实现 。 而 本 例 的 拟 合 
算法 实现 较为 简单 ， 通 过 不 停 地 修正 数据 值 从 而 达到 数据 的 最 优 值 。 

随机 梯度 下 降 算 法 在 神经 网 络 特别 是 机 器 学 习 中 应 用 较 广 ， 但 是 由 于 其 天 生 的 缺陷 ， 噪 
音 较 多 ， 使 得 在 计算 过 程 中 并 不 是 都 向 着 整体 最 优 解 的 方向 优化 ， 往 往 可 能 只 是 一 个 局 部 最 
优 解 。 因 此 ， 为 了 克服 这 些 困 难 ， 一 个 最 好 的 办 法 是 增 大 数据 量 ， 在 不 停 地 使 用 数据 进行 多 
代 处 理 的 时 候 ， 能 够 确保 整体 的 方向 是 全 局 最 优 解 ， 或 者 最 优 结果 在 全 局 最 优 解 附近 。 


【程序 9-2】 


x = [(2, 0, 3), (1, 0, 3), (1, 1, 3), (1,4, 2), (1, 2, 4)] 
y = [5, 6, 8, 10, 11] 


epsilon - 0.002 


alpha = 0.02 
diff = [0, 0] 
max_itor = 1000 
0 

0 


error0 = 
errori = 
cnt = 0 


m — len(x) 


theta0 = 0 
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thetal = 0 
theta2 = 0 


while True: 


cnt += 1 


for i in range(m): 
diff[0] = (thetaO * x[i][0] + thetal * x[i][1] + theta2 * x[i][2]) - yli] 
theta0 -= alpha * diff[0] * x[i][0] 
thetal -= alpha * diff[0] * x[il[1] 
theta2 -= alpha * diff[0] * x[i][2] 


errorl = 0 
for lp in range(len(x)): 


errorl += (y[lp] - (theta0 + thetal * x[1p][1] + theta2 * x[1p][2])) ** 
29 
if abs(errorl - error0) « epsilon: 
break 
else: 


error0 = errorl 


print ('theta0 : %f, thetal : %f, theta2 : %f, errorl : $f' % (theta0, thetal, 


theta2, errorl)) 
print('Done: theta0 : %f, thetal : %f, theta2 : $f' % (theta0, thetal, theta2)) 


print (RKA: %d' $ cnt) 
最 终结 果 打印 如 下 : 


thetad : 0.100684, thetal : 1.564907, theta2 : 1.920652, errorl : 0.569459 
Done: thetad : 0.100684, thetal : 1.564907, theta2 : 1.920652 
迭代 次 数 : 2118 


从 结果 上 看 ， 这 里 需要 和 迭代 2118 次 即 可 获得 最 优 解 。 
而 使 用 TensorFlow 计算 一 元 线性 回归 和 多 元 线性 回归 的 方法 如 下 : 


# 使 用 TensorFlow 进行 一 元 线性 回归 


def linear regression (real): 


xs = [] 

for _ in range(len(real)): 
xs.append( ) 

xs — np.reshape (xs, (-1,1)) 

ys = real 

ys = np.reshape(ys, (-1, 1)) 
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x = tf.placeholder(tf.float32, [None, 1]) 
y = tf.placeholder(tf.float32, [None, 1]) # y 为 测试 集结 果 数 据 


weight = tf.Variable(tf.zeros([1, 1])) 
bias = tf.Variable(tf.zeros([1])) 


#y = tf.matmul(x, weight) + bias #7 FAERIE 
y = tf.multiply(weight,x) + bias # 简 单 的 线性 乘法 


loss = tf.reduce mean(tf.square(y - y )) # 批 量 线性 回归 用 这 个 损失 函数 


train step = tf.train.AdamOptimizer (0.00001) .minimize (loss) 


init = tf.global variables initializer() 


flag - True 


with tf.Session() as sess: 


sess.run(init) 


count - 0 

loss temp = 0 

loss flag - 0 

while flag: 
feed - (x: xs, y : ys) 
sess.run(train step, feed dict-feed) 


loss res - sess.run(loss, feed dict-feed) 


if count%10000 == 0: 
print ("正在 运行 次 数 为 :", count," Loss 为 : "LOSS res) 


if loss_temp == loss_res: 
loss_flag += 1 
if loss_flag > 10: 
flag = False 
count += 1 


loss_temp = loss_res 


weight = sess.run(weight) 


bias = sess.run(bias) 


return weight [0] [0],bias[0] 


这 里 使 用 TensorFlow 进行 一 元 线性 回归 ， 而 使 用 TensorFlow 进行 多 元 线性 回归 的 代码 
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如 下 : 
# 使 用 TensorFlow 进行 多 元 线性 回归 


def linear regression(real Y,real MAT): 
m,n = np.shape(real MAT) 
real Y - np.reshape(real Y, (m, 1)) 
real MAT = np.reshape (real MAT, (-1,n)) 
x = tf.placeholder(tf.float32, [None, n]) 


y = tf.placeholder(tf.float32, [m, 1]) # y 为 测试 集结 果 数 据 


weight = tf.Variable(tf.ones([n, 1])) 
bias = tf.Variable(tf.ones([1,1])) 


y = tf.matmul(x , weight) + bias 


loss = tf.reduce mean(tf.square(y - y )) # 批 量 线性 回归 用 这 个 损失 函数 


train_step = tf.train.AdamOptimizer (0.01) .minimize(loss) 


init tf.global variables initializer () 
flag = True 
with tf.Session() as sess: 


sess.run(init) 


count = 0 
loss_temp = 0 
while flag: 


feed = {x_: real MAT, y : real Y} 


sess.run(train step, feed dict-feed) 


loss res - sess.run(loss, feed dict-feed) 

loss res - np.nan to num(loss res) 

# if count%10000 == 0: 

+ print ("正在 运行 次 数 为 :", count," Loss 为 : ",loss_res) 


if (loss temp == loss res) or (loss res < 0.001): 
flag = False 
count += 1 


loss_temp = loss_res 
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weight = sess.run(weight) 
bias = sess.run(bias) 


return weight,bias 


9.2.2 ”线性 回归 的 姐妹 一 一 逻辑 回归 

最 后 将 少 用 数学 公式 而 采用 浅显 易 懂 的 方法 解释 一 些 量化 策略 中 用 到 的 基本 理论 和 算 
法 。 下 面 将 顺带 介绍 一 下 线性 回归 的 姐妹 算法 一 一 逻辑 回归 。 本 小 节 内 容 的 难度 较 大 ， 读 者 
可 以 不 看 数学 理论 部 分 ，9.4 节 将 以 实例 的 方式 进行 展示 。 

逻辑 回归 主要 应 用 于 分 类 领域 ， 其 主要 作用 是 对 不 同性 质 的 数据 进行 分 类 标识 。 逻 辑 回 
归 是 在 线性 回归 的 算法 上 发 展 起 来 的 ， 它 提供 一 个 系数 6， 并 对 其 求 值 。 基 于 此 ， 可 以 较 好 
地 提供 理论 支持 和 不 同 的 算法 ， 轻 松 地 对 数据 集 进 行 分 类 。 
图 9-8 是 房屋 面积 与 价格 回归 示意 图 ， 在 这 里 使 用 逻辑 回归 算法 对 房屋 价格 进行 了 分 
类 。 可 以 看 到 ， 其 被 较 好 地 分 成 了 两 部 分 ， 这 也 是 在 计算 时 要 求 区 分 的 内 容 。 


9-8 房屋 面积 与 价格 回归 示意 图 
逻辑 回归 的 具体 公式 如 下 : 


1 
1+exp(—07x) 


与 线性 回归 相同 ， 这 里 的 6 是 逻辑 回归 的 参数 ， 即 回归 系数 。 如 果 将 其 进一步 变形 ， 使 
其 能 够 反映 二 元 分 类 问题 ， 那 么 公式 为 : 


fx) = 


1 


fO = 1|x,6) = TF ep-o7x) 


这 里 y 值 是 由 已 有 的 数据 集中 的 数据 和 6 共同 决定 的 。 而 实际 上 ， 这 个 公式 求 的 是 在 满 
足 一 定 条 件 时 ， 计 算 最 终 数据 被 归于 某 一 类 的 概率 。 通 过 公式 表示 为 : 
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fO =11x,8) 
f(y =0lx,@) 
通过 这 个 逻辑 回归 倒 推 公式 可 以 看 到 ， 最 终 逻 辑 回 归 的 计算 可 以 转化 成 由 数据 集 的 特征 
向 量 与 系数 O 共同 完成 ， 然 后 求 得 其 加 权 和 ， 得 到 最 终 的 判断 结果 。 
由 前 面 的 数学 分 析 来 看 ， 最 终 逻 辑 回 归 问 题 也 可 以 称 为 对 系数 9 的 求 值 问题 。 这 里 读者 
只 需要 知道 原理 即 可 。 


log(x) = in( ) = Oo + 01X1 + 02X2 + --- + OnXn 


实战 : 回归 分 析 一 一 短 时 间 开 盘 价 与 
收盘 价 之 间 的 关系 


下 面 使 用 一 个 简单 的 实例 进行 介绍 。 
对 于 某 只 股票 来 说 ， 在 短 时 期 内 的 开盘 价 和 收盘 价 总 有 一 定 的 关系 ， 那 么 如 何 利 用 短期 的 开 
盘 价 与 收盘 价 之 间 的 关系 去 对 当日 的 收盘 价 进行 预测 呢 ? 图 9-9 是 一 个 股价 的 线性 回归 图 。 


图 9-9 股价 的 线性 回归 


9.3.1 量化 策略 基本 思路 与 简单 实现 

首先 要 设计 出 简单 的 量化 策略 ， 对 于 使 用 回归 分 析 进 行 开 盘 价 和 收盘 价 预测 也 是 如 此 。 
基于 本 例 中 只 是 对 回归 分 析 做 一 个 简单 的 演示 ， 设 计 的 量化 策略 如 下 

€ 用 前 7 日 的 开盘 价 和 收盘 价 做 线性 拟 合 。 

© ”根据 当日 的 开盘 价 去 预测 当日 的 收盘 价 。 

© 如果 当 日 开盘 价 比 当日 预测 的 收盘 价 低 就 买 入 ， 和 否则 卖 出 。 

下 面 是 对 策略 的 实现 。 在 实现 策略 之 前 ， 最 好 通过 一 个 个 程序 段 对 主要 策略 予以 实现 。 
在 实际 工作 中 也 是 如 此 ， 首 先 完善 主 策略 ， 之 后 将 其 包装 成 只 需要 传 参 的 函数 ， 代 码 如 下 
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【程序 9-3】 


from gm.api import * 
import datetime 
import numpy as np 


import statsmodels.api as sm 


set_token ("e8978d765c4822e5a85fcaa73e044065cf£17b58b") 
day time, hour and mins = str(datetime.datetime.now().strftime('$Y-$m- 
$d %H:%M:%S')).split(" ") 


symbol = "SZSE.000651" 
data = history_n("SZSE.000651", frequency="1d",end_time= 
day_time, count=7, fields="close, 


open", df=True) 


close = data["close"].values 


open = data["open"] .values 


open sm.add_constant (open) 


model = sm.OLS(close, open) 


results = model.fit() 


bias,weight =(results.params) 
print (bias," ", weight) 

这 里 使 用 的 是 查询 方法 ， 打 印 结果 如 下 : 
19.9680323625  0.562732442978 

可 以 看 到 通过 线性 回归 分 析 最 终 得 到 一 个 系数 组 ， 分 别 是 线性 回归 对 应 的 bias 和 
weight， 通 过 拟 合 函数 的 构建 可 以 知道 ， 最 终结 果 应 该 如 下 : 

close=bias+open X weight 

这 样 可 以 通过 计算 获取 最 终 的 预测 值 。 

下 面 将 主 策略 以 函数 的 形式 包装 起 来 ， 通 过 程序 可 以 发 现 主 策略 主要 涉及 两 个 主要 参 
数 : symbol 与 data， 因 此 可 以 将 这 两 个 参数 独立 出 来 作为 形 参 传 入 ， 代 码 如 下 : 
def get predict close(symbol,now,count = 7): 

last day = get previous trading date ("SHSE",now) 


data — 
history n(symbol,frequency-"1d",end time-last day,count-count, fields="close, open", 
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df=True) 


close = data["close"].values 


open = data["open"].values 
open = sm.add_constant (open) 
model = sm.OLS(close, open) 


results = model.fit() 


bias,weight =(results.params) 


return bias, weight 


需要 注意 的 是 ， 这 里 在 传 参 的 时 候 还 额外 传 入 了 count 参数 ， 这 个 的 参数 被 设置 成 默认 
的 数字 7， 读 者 也 可 以 设置 成 其 他 参数 。 


9.3.2 ”使 用 掘 金 量 化 实现 回 测 
F 面 使 用 掘 金 量化 对 策略 进行 回 测 ， 代 码 如 下 : 
UR 


import numpy as np 


9-4] 


from gm.api import * 
import fun 
import os 


import csv 


import datetime 
def init(context): 


Schedule(schedule func-algo, date rule-'l1d', time rule-'09:31:00') 


context.symbol = "SHSE.601318" 


def algo(context): 
now — context.now 


bias,weight = fun.get predict close (context .symbol, now, count=7) 


data = history n(context.symbol, frequency="1d", end time-now, count=1, 
fields-"open", df-True) 

pre close - bias * weight * data["open"].values 

if pre close » data["open"].values: 


order target percent (symbol-context.symbol, percent=1, 
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order_type=OrderType Market, 
position_side=PositionSide Long) 
else: 
order target percent (symbol=context.symbol, percent=1, 
order type-OrderType Market, 
position side-PositionSide Long) 
def on backtest finished(context, indicator): 


pass 


if name == " main ": 

run( 
strategy id-'9f53e15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-"2018-01-15 09:30:00", 
backtest end time-'2018-07-10 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 

) 


在 本 例 中 ， 设 置 的 是 当 预 测 值 大 于 开盘 价 时 就 买 入 ， 而 预测 的 收盘 价 小 于 开盘 价 时 就 卖 
出 ， 测 试 结果 如 图 9-10 所 示 。 


eae 由 一 小 m oe 


AHHH HHHH 


9-10 线性 回归 的 回 测 结果 
可 以 看 到 这 里 的 胜率 并 不 高 ， 并 没有 获得 较 高 的 额外 收益 ， 读 者 有 可 能 想到 ， 如 果 将 其 
变化 ， 目 前 预测 的 收盘 价 高 于 开盘 价 ， 而 将 其 转换 成 预测 的 收盘 价 低 于 开盘 价 进行 买 入 。 代 
码 有 了 一 些 变化 : 
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【程序 9-5】 


import numpy as np 
from gm.api import * 
import fun 

import os 


import csv 


import datetime 
def init (context): 
schedule (schedule func-algo, date_rule='1ld', time_rule='09:31:00') 


context.symbol = "SHSE.601318" 


def algo (context): 
now = context.now 
order close all() 


bias,weight = fun.get predict close (context.symbol,now,count-7) 


data = history n(context.symbol, frequency="1d", end time-now, count=1, 
fields-"open", df-True) 
pre close = bias + weight * data["open"].values 
if pre close « data["open"].values: 
order target percent(symbol-context.symbol, percent=1, 
order type-OrderType Market, 


position side-PositionSide Long) 


def on backtest finished(context, indicator): 


pass 


if name  -- " main ": 
run( 

strategy id-'9f53el15f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-"2018-01-15 09:30:00", 
backtest end time-'2018-07-10 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 


回 测 结果 如 图 9-11 所 示 。 
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SIS 气 金 量化 一 一 回归 分 析 基 础 


E | 1] | Ba HHHH 
EE EH LEE 
图 9-11 线性 回归 的 回 测 结果 
可 能 回 测 结果 不 像 读 者 想象 的 那样 ， 能 够 获取 较 高 的 收益 ， 对 于 胜率 的 比较 ， 图 9-10 和 
图 9-11 的 胜率 分 别 为 53.45% 和 46.55%， 这 样 在 一 起 的 和 为 100%。 
但 是 问题 在 于 ， 无 论 采用 哪 种 方式 均 无 法 获取 正 收益 ， 这 里 截取 并 显示 601318 所 对 应 的 
股票 走势 图 ， 代 码 如 下 : 


data = history("SHSE.601318", frequency="1d",start_time="2018-01- 
15",end_time=day time, 


fields="close", df=True) 


close = data["close"].values 
plt.plot (close) 
plt.show() 


显示 结果 如 图 9-12 所 示 。 


9-12 601318 走势 图 
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可 以 看 到 ， 从 2018 FAS, 601318 的 走势 一 直 以 向 下 走 为 主 ， 这 样 的 走势 对 于 任何 买 
入 和 卖 出 指标 的 量化 交易 来 说 都 是 危险 的 。 因 此 ， 建 议 读者 买卖 股票 除了 技术 指标 外 ， 还 需 
要 对 目标 标的 进行 选择 。 

选择 的 好 坏 永 远大 于 技术 择 时 。 


72.7. sumi — ”逻辑 回归 帮 你 做 决定 


买 还 是 卖 ， 这 是 一 个 问题 ( 见 图 9-13) 。 


图 9-13 买 还 是 卖 


对 于 大 多 数 投资 者 来 说 ， 买 或 者 不 买 实际 上 是 一 种 经 验 的 总 结 ， 其 更 多 的 是 通过 历史 数 
据 的 分 析 做 出 判断 。 那 么 能 否 提 供 一 种 方法 ， 通 过 模拟 历史 数据 来 对 未 来 做 出 判断 ， 这 就 是 


逻辑 回归 。 


9.4.1 ”逻辑 回归 是 一 种 分 类 算法 
前 面 对 罗 辑 回归 已 经 有 了 一 个 大 致 的 介绍 ， 如 果 有 读者 跳 过 了 其 中 的 数学 部 分 也 没 关 
系 ， 你 需要 记 住 的 就 是 逻辑 回归 并 不 是 数值 回归 ， 逻 辑 回 归 是 一 种 分 类 算法 。 

逻辑 回归 是 一 种 广义 的 线性 回归 分 析 模 型 ， 常 用 于 数据 挖掘 、 疾 病 自 动 诊断 、 经 济 预测 
等 领域 。 例 如 ， 探 讨 引发 疾病 的 危险 因素 ， 并 根据 危险 因素 预测 疾病 发 生 的 概率 等 。 

以 胃癌 病情 分 析 为 例 ， 选 择 两 组 人 群 ， 一 组 是 胃癌 组 ， 另 一 组 是 非 胃癌 组 ， 两 组 人 群 必 
定 具 有 不 同 的 体征 与 生活 方式 等 。 因 此 ， 因 变量 就 为 是 否 是 胃癌 ， 值 为 “是 ”或 “ 否 ”， 自 
变量 就 包括 很 多 了 ， 如 年 龄 、 性 别 、 饮 食 习 惯 、 幽 门 螺杆 菌 感染 等 。 

自 变量 既 可 以 是 连续 的 ， 也 可 以 是 分 类 的 。 然 后 通过 logistic 回归 分 析 可 以 得 到 自 变量 的 
权重 ， 从 而 可 以 大 致 了 解 到 底 哪些 因素 是 导致 胃癌 的 危险 因素 。 同 时 ， 利 用 该 权 值 可 以 根据 
危险 因素 预测 一 个 人 患 癌症 的 可 能 性 。 
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逻辑 回归 的 主要 用 途 如 下 。 


© ”寻找 危险 因素 : 寻找 某 一 疾病 的 危险 因素 ; 
€ AR: 如 果 已 经 拟 合 出 回归 模型 ， 那 么 可 以 根据 模型 预测 在 不 同 自 变量 的 情况 下 发 
生 某 病 或 某 种 情况 的 概率 有 多 大 。 

e JD: 根据 逻辑 回归 模型 判断 某 人 属于 某 病 或 属于 某 种 情况 的 概率 有 多 大 

这 是 罗 辑 回归 最 常用 的 三 个 用 途 ， 实 际 上 导 辑 回归 的 用 途 是 极为 广泛 的 ， 逻 辑 回归 几乎 
已 经 成 了 流行 病 学 和 医学 中 最 常用 的 分 析 方 法 ， 因 为 它 与 多 重 线性 回归 相 比 有 很 多 的 优势 ， 
后 面 会 对 该 方法 进行 详细 的 阐述 。 实 际 上 还 有 很 多 分 类 方法 ， 只 不 过 罗 辑 回归 是 最 成 功 也 是 
应 用 最 广 的 方法 。 


9.4.2 ”逻辑 回归 的 TensorFlow 实现 

TensorFlow 在 前 面 已 经 介绍 过 了 ， 这 里 将 以 实际 应 用 为 主 ， 介 绍 使 用 TensorFlow 完成 以 
前 一 日 的 开盘 价 、 收 盘 价 、 最 高 价 、 最 低 价 和 成 交 量 为 因子 的 逻辑 回归 。 
第 一 步 : 数据 格式 

在 构建 模型 结构 时 暂时 不 需要 输入 数据 ， 但 需要 制定 几 个 输入 特征 。 从 前 面 介绍 的 影响 
子 可 以 看 出 ， 输 入 特征 有 以 下 5 个 。 


€ 前 一 日 的 开盘 价 : open. 
e 前 一 日 的 收盘 价 : close. 
e 前 一 日 的 最 高 价 : high, 
À 


>H 


@ 前 一 日 的 最 低 价 : low. 
€ 前 一 日 的 成 交 量 : volume, 


而 最 后 一 个 量 为 fag， 这 里 做 了 规定 ， 即 当日 收盘 价 高 于 开盘 价 时 ， 即 将 值 设置 成 1， 
反之 为 0。 
第 二 步 : 数据 的 获取 


下 面 使 用 掘 金 获取 数据 。 
通过 分 析 可 以 知道 ， 由 于 在 设计 策略 时 已 经 做 出 规定 ， 通 过 计算 前 一 日 的 5 个 特征 值 去 
对 第 二 日 的 涨 跌 进 行 计算 ， 因 此 数据 的 获取 代码 如 下 : 


last day = get previous trading date ("SHSE",now) 


last last day = get previous trading date("SHSE",last day) 


df = history n(symbol, frequency="1d", end time-last last day, count=60, 


fields-"open,close,high,low,volume", df-True) 


这 里 需要 说 明 ， 函 数 中 的 now 是 当前 的 日 期 ， 通 过 get previous trading date 函数 获取 前 
一 日 的 日 期 并 进一步 获取 前 两 日 的 日 期 。 这 样 做 的 好 处 在 于 ， 数 据 的 计算 是 根据 前 日 的 数据 
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对 第 二 天 的 涨 跌 进 行 判断 ， 而 最 终 的 判定 因子 还 是 以 前 一 日 的 涨 跌 为 主 。 生 成 的 数据 如 下 : 
close high low open volume 

0 3843.4885 3854.4292 3769.8787 3769.8787 11421952500 

3828.7014 3838.6921 3817.0320 3824.5930 7817261200 

3755.4941 3828.7129 3744.8853 3823.3921 8715064100 

3756.8765 3776.9751 3714.6443 3771.0369 8953172600 

3763.6460 3787.3025 3744.5476 3769.9250 8330103500 


这 里 是 以 沪 深 300 的 指数 数据 为 例 进行 判定 的 。 

下 面 对 指 标 进 行 判定 。 前 面 已 经 介绍 过 了 ， 对 于 指标 的 判定 采用 测试 当日 的 数据 涨 跌 情 
况 作为 判定 指标 ， 上 涨 设 为 1， 而 下 跌 设 为 0， 代码 如 下 : 
df["flag"] = 0 
for _ in range(1, len(df)): 

res = (df.loc[ - 1, "close"]) = (df.loc[ - 1, "open"]) 

if (res) > 0: 

df.loc[ , "flag"] = 1 

可 以 看 到 ， 对 于 获取 的 数据 集 ， 根 据 第 二 日 的 涨 跌 设置 成 1 或 者 0， 并 且 将 其 设置 成 
pandas 中 的 flag 数据 ， 结 果 如 下 : 
close high low open volume flag 
3843.4885 3854.4292 3769.8787 3769.8787 11421952500 0 
3828.7014 3838.6921 3817.0320 3824.5930 7817261200 
3755.4941 3828.7129 3744.8853 3823.3921 8715064100 
3756.8765 3776.9751 3714.6443 3771.0369 8953172600 
3763.6460 3787.3025 3744.5476 3769.9250 8330103500 


这 里 需要 注意 的 是 ，flag 是 所 要 计算 的 第 二 日 的 涨 跌幅 ， 因 此 整体 数据 的 长 度 要 小 于 原 
始 数 据 长 度 。 


第 三 步 : TensorFlow 中 逻辑 回归 模型 的 设计 
在 TensorFlow 中 ， 对 于 逻辑 回归 设计 了 便于 使 用 的 模型 ， 代 码 如 下 : 


classifier = tf.estimator.DNNClassifier( 
# 这 个 模型 接受 哪些 输入 的 特征 
feature_columns=symbol feature columns, 


+ 包含 两 个 隐藏 层 ， 每 个 隐藏 层 包含 10 个 神经 元 
hidden units=[128, 128], 
# 最 终结 果 要 分 成 的 几 类 
n_classes=2) 
这 里 的 t£estimatorDNNClassifier. 函数 指 的 是 使 用 了 TensorFlow 中 自 带 的 逻辑 回归 函 
数 ，hidden_units 参数 使 用 list 设置 了 隐藏 层 中 的 神经 元 个 数 以 及 最 终 的 分 类 数 。 


& 0 oT on 


& UI ^o 
oorr 
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def train_func(train_x,train_y): 
dataset-tf.data.Dataset.from tensor slices((dict(train x), train y)) 
dataset = dataset.shuffle(1000).repeat().batch (100) 


return dataset 


train func 是 准备 训练 集 函数 ， 这 里 设置 了 训练 参数 和 训练 结果 值 ， 并 且 对 数据 进行 了 打 
乱 处 理 ， 最 终 将 打 乱 后 的 结果 返回 。 


classifier.train( 
input_fn=lambda:train_func(train_x,train_y), 
steps=1000) 


下 面 是 训练 函数 ， 这 里 使 用 上 文 的 训练 数据 集 进行 输出 。 


def predict_input_fn(features, labels, batch_size): 
features = dict (features) 
if labels is None: 
# No labels, use only features. 
inputs = features 
else: 
inputs = (features, labels) 


dataset = tf.data.Dataset.from_tensor_slices (inputs) 


assert batch size is not None, "batch size must not be None" 
dataset - dataset.batch(batch size) 
return dataset 


这 里 是 输出 函数 ， 将 待 测 数据 放 入 函数 中 ， 使 用 训练 好 的 模型 和 参数 进行 测试 。 
整体 代码 段 如 下 : 


def get check flag (symbol,now): 


last day = get previous trading date("SHSE",now) 
last last day = get previous trading date("SHSE",last day) 


f = history n(symbol, frequency-"ld", end time-last last day, count-60, 
fields-"open,close,high,low,volume", df-True) 


df["flag"] = 0 

for _ in range(1, len(df)): 
ges -= {df toc) = 1; “cloge"]) = (df:Locl = 1; open |))) 
mys (res) > 05 


drilocpe “flagri = 1 


train x, train y = df, df.pop('flag') 
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symbol feature_columns = [] 
for key in train x.keys(): 


symbol feature columns.append(tf.feature column.numeric column (key=key) ) 


classifier = tf.estimator.DNNClassifier( 
+ 这 个 模型 接受 哪些 输入 的 特征 
feature_columns=symbol feature columns, 
t 包含 两 个 隐藏 层 ， 每 个 隐藏 层 包含 10 个 神经 元 
hidden_units=[128, 128,128], 
# 最 终结 果 要 分 成 几 类 


n_classes=2) 


def train_func(train_x,train_y): 
dataset=tf.data.Dataset.from_tensor_slices((dict(train_x), train_y)) 
dataset = dataset.shuffle(1000) .repeat () .batch (100) 
return dataset 


classifier.train( 
input fn-lambda:train func(train x,train y), 
steps-1000) 


def predict input fn(features, labels, batch size): 
features = dict(features) 
if labels is None: 
* No labels, use only features. 
inputs = features 
eise: 
inputs - (features, labels) 


dataset = tf.data.Dataset.from tensor slices (inputs) 


assert batch size is not None, "batch size must not be None" 
dataset = dataset.batch(batch size) 


return dataset 


f = history n(symbol, frequency-"ld", end time-last day, count=1, 
fields-"open,close,high,low,volume", df-True) 
test = 
[df ["open"] . values, df ["close"] .values,df["high"] .values,df["low"] .values, df["v 


olume"] .values] 


test data = pd.DataFrame([('open':test[0],'close':test[1], 'high':test[2], 
"low':test[3], 'volume':test [4] },index=[0]) 
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predict_result = [] 
predictions = classifier.predict ( 
input fn-lambda:predict input fn(test data,labels-None,batch size-1)) 
for predict in predictions: 
predict result.append(predict['probabilities'].argmax()) 


return (predict result) 


通过 模型 训练 前 60 日 的 涨 跌 情 况 判 断 当日 的 涨 跌 情 况 ， 并 将 数据 返回 。 若 返 
则 为 买 入 信号 ， 若 返回 值 为 0， 则 为 卖 出 信号 。 


gx 
nu 


9.4.3 ”使 用 TensorFlow 的 逻辑 回归 进行 回 测 
下 面 使 用 逻辑 回归 的 策略 进行 数据 回 测 。 使 用 的 是 沪 深 300 指数 作为 买卖 标的 ， 代 码 
如 F: 


【程序 9-6】 


import numpy as np 

from gm.api import * 

import 单 股票 的 逻辑 回归 分 析 as fun 
import os 

import csv 


import datetime 
def init (context): 
schedule (schedule func-algo, date rule-'l1d', time_rule='09:31:00') 


context.symbol = "SHSE.000300" 


def algo(context): 
now — context.now 
order close all() 
flag - fun.get check flag(context.symbol,now) 
print(flag) 


if flag: 
order target percent (symbol=context.symbol, percent=1, 
order type-OrderType Market, 
position side-PositionSide Long) 
def on backtest finished(context, indicator): 
pass 
if | name == " main ": 
run( 
strategy id-'9f53el5f-6870-11e8-801c-4cedfb681747', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
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token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-"2018-01-15 09:30:00", 
backtest end time-'2018-07-10 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 

) 


这 里 导入 的 主 策略 判定 就 是 前 面 所 设置 的 逻辑 回归 模型 ， 根 据 值 的 判定 从 而 决定 数据 的 


买卖 。 最 终结 果 如 图 9-14 所 示 。 


pm a — mm i -— 
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图 9-14 逻辑 回归 的 回 测 结果 


nn 


这 里 可 以 看 到 ， 回 测 曲线 非常 好 地 拟 合 了 沪 深 300 的 走势 ， 但 是 由 于 在 回 测 期 间 沪 深 


300 为 下 跌 状 态 ， 因 此 其 收益 为 负 。 
此 时 ， 如 果 把 买 入 指标 和 卖 出 指标 互 换 ， 那 么 回 测 结果 如 图 9-15 所 示 。 


| 
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图 9-15 买卖 指标 互 换 之 后 的 回 测 结果 
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这 里 可 以 看 到 ， 对 于 买卖 指标 进行 互 换 ， 收 益 并 没有 改善 多 少 ， 因 此 可 以 说 ， 简 单 改 变 
买卖 指标 进行 股票 的 买卖 对 于 收益 并 没有 多 少 影响 。 

这 里 有 一 点 需要 注意 ， 对 于 胜率 来 说 ， 图 9-14 和 图 9-15 的 胜率 和 为 900%， 而 不 是 前 面 
写 的 100%， 这 里 可 能 是 产生 了 数据 缺失 ， 请 读者 注意 。 


9.5 机 器 学 习 策略 支持 向 量 机 


本 节 将 简略 介绍 支持 向 量 机 的 用 法 。 

支持 向 量 机 是 机 器 学 习 的 一 种 ， 相 对 于 线性 回归 和 风 辑 回归 来 说 ， 支 持 向 量 机 实际 上 是 
一 种 有 监督 的 机 器 学 习 算 法 。 将 机 器 学 习 算法 应 用 于 股市 分 类 中 ， 与 上 一 节 的 罗 辑 回归 类 
似 ， 实 际 上 也 是 通过 训练 模型 学 习 不 同 因子 对 未 来 的 走势 的 影响 去 做 出 判断 。 


9.5.1 支持 向 量 机 的 基本 概念 


支持 向 量 机 解决 的 是 有 监督 的 二 元 分 类 问题 (supervised binary classification) o 

例如 ， 对 于 股票 市 场 来 说 ， 对 于 某 只 股 ， 希 望 根据 它 的 属性 以 及 一 系列 已 经 分 类 好 的 历 
史 样 本 ， 将 这 个 新 样本 分 到 两 个 不 同 的 目标 类 中 的 某 一 类 。 

股市 的 涨 跌 识别 就 是 一 个 例子 : 一 只 股票 在 股市 中 每 日 的 行情 要 么 涨 要 么 跌 。 因 此 ， 对 
于 股票 的 走势 判定 ， 我 们 希望 机 器 学 习 算法 能 够 自动 对 它 分 类 。 为 此 ， 我 们 首先 通过 人 工 对 
大 量 的 历史 数据 进行 标识 ， 然 后 用 这 些 标识 后 的 历史 数据 对 机 器 学 习 算 法 进行 训练 。 

在 处 理 这 类 分 类 问题 时 ，SVM 的 作用 对 象 是 样本 的 特征 空间 (feature space) ， 它 是 一 
个 有 限 维度 的 向 量 空 间 ， 每 个 维度 对 应 着 样本 的 一 个 特征 ， 而 这 些 特 征 组 合 起 来 可 以 很 好 地 
描述 被 分 类 的 样本 。 

为 了 对 新 的 样本 分 类 ，SVM 算法 会 根据 历史 数据 在 特征 空间 内 构建 一 个 超 平面 
Chyperplane) ， 它 将 特征 空间 线性 分 割 为 两 部 分 ， 对 应 着 分 类 问题 的 两 类 ， 分 别 位 于 超 平面 
的 两 侧 。 构 建 超 平面 的 过 程 就 是 模型 训练 过 程 。 对 于 一 个 给 定 的 新 样本 ， 根 据 它 的 特征 值 ， 
它 会 被 放 在 超 平面 两 侧 中 的 某 一 侧 ， 这 便 完成 了 分 类 。 不 难看 出 ，SVM 是 一 个 非 概率 的 线性 
分 类 器 。 这 是 因为 SVM 模型 回答 的 是 非 此 即 彼 的 问题 ， 新 样本 会 被 确定 地 分 到 两 类 中 的 某 
一 类 


在 数学 表达 上 ， 每 一 只 股票 的 历史 样本 点 由 一 个 (X, y) 元 组 表示 ， 其 中 粗 体 的 X 是 特征 
向 量 ， 即 X= Qu. .…, xp)， 而 其 中 每 一 个 x 代表 股票 的 某 一 个 特征 ， 而 y 代表 该 样本 的 已 知 分 
类 (通常 用 +1 和 0 表示 涨 和 跌 ) 。SVM 会 根据 这 些 给 定 的 历史 数据 来 训练 算法 的 参数 ， 找 
到 最 优 的 线性 超 平面 。 

理想 情况 下 ， 这 个 超 平面 可 以 将 两 类 涨 跌 完 美的 分 开 〈 即 没有 错 分 的 情况 ) 。 对 于 给 定 
的 训练 数据 ， 可 以 将 它们 完美 分 开 的 超 平面 很 可 能 不 是 唯一 的 ， 比 如 一 个 超 平面 稍微 旋转 一 
个 角度 ， 便 得 到 一 个 仍然 能 够 完美 分 割 的 超 平面 。 在 众多 能 够 实现 分 类 的 超 平面 中 ， 只 有 一 
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个 是 最 优 的 。 

在 实际 应 用 中 ， 很 多 数据 并 非 是 线性 可 分 的 。SVM 的 强大 之 处 在 于 ， 它 不 仅仅 局 限于 是 
一 个 高 维 空间 的 线性 分 类 器 。 它 通过 非 线性 的 核 函 数 Ckernel functions) 把 原始 的 特征 空间 映 
射 到 更 高 维 的 特征 空间 (可 以 是 无 限 维 的 ) ， 在 高 维 空间 中 再 将 这 些 样 本 点 线性 分 割 。 高 维 
空间 的 线性 分 割 对 应 着 原始 特征 空间 的 非 线性 分 割 ， 因 此 在 原始 特征 空间 中 生成 了 非 线性 的 
决策 边界 。 此 外 ， 这 么 做 并 不 以 增加 计算 机 的 计算 负担 为 代价 。 因 此 ，SVM 相当 高 效 。 


95.2 使 用 支持 向 量 机 进行 回 测 
对 于 这 部 分 内 容 ， 由 于 难度 关系 ， 只 给 出 回 测 代码 ， 有 兴趣 的 读者 可 以 自行 研究 完 
策略 的 判定 : 


€ 选取 7 个 特征 变量 组 成 滑动 窗口 长 度 为 15 天 的 训练 集 ， 随 后 训练 一 个 二 分 类 (上 
涨 /下 跌 ) 的 支持 向 量 机 模型 。 

@。 若 没有 仓位 ， 则 在 每 个 星期 一 的 时 候 输 入 标的 股票 近 15 个 交易 日 的 特征 变量 进行 
预测 ， 并 在 预测 结果 为 上 涨 的 时 候 购买 标的 。 

© FLAG CH, MABAAF 1096 的 时 候 止 蛋 ， 在 星期 五 损失 大 于 2% 的 时 候 止 
损 。 

© HEREA: 收盘 价 /均值 、 现 量 / 均 量 、 最 高 价 / 均 价 、 最 低 价 / 均 价 、 现 量 、 区 间 收 
益 率 、 区 间 标 准 差 。 


【程序 9-7】 


# coding-utf-8 
from future import print function, absolute import, unicode literals 
from datetime import datetime 
import numpy as np 
from gm.api import * 
import sys 
I Ey 
from sklearn import svm 
except: 
print (' 请 安装 scikit-learn 库 和 带 mkl 的 numpy') 
sys.exit (-1) 


def init (context): 
# 订阅 浦发 银行 的 分 钟 bar 行情 
context.symbol = 'SHSE.600000' 
subscribe (symbols=context.symbol, frequency-'60s') 
start date = '2016-03-01' # SVM 训练 起 始 时 间 
end date = '2017-06-30' # SVM 训练 终止 时 间 
# 用 于 记录 工作 日 
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+ 获取 目标 股票 的 daily 历史 行情 


recent data = history(context.symbol, frequency='1d"', 


end time-end date, fill missing-'last', 


df-True) 
days value — recent data['bob'].values 
days close = recent data['close'].values 
days - [] 
+ 获取 行情 日 期 列表 
print (' 准 备 数据 训练 SvM' ) 
for i in range(len(days value)): 


days.append(str(days value[i]) [0:10]) 


x all — [] 
age uu = qr 
for index in range(15, (len(days) - 5)): 


# 计算 三 星期 共 15 个 交易 日 相关 数据 
start_day = days[index - 15] 
end_day = days[index] 


start_time=start_date, 


data = history(context.symbol, frequency-'ld', start time-start day, 


end time-end day, fill missing-'last', 


df-True) 

close - data['close'].values 
max x = data['high'].values 
min n - data['low'].values 
amount = data['amount'].values 
volume = [] 
for i in range (len (close)): 

volume temp = amount[i] / close[i] 


volume.append(volume temp) 


close mean = close[-1] / np.mean(close) # 收盘 价 /均值 


volume_mean = volume[-1] / np.mean(volume) # 现 量 / 均 量 


max_mean = max_x[-1] / np.mean(max_x) # 最 高 价 / 均 价 
min_mean = min_n[-1] / np.mean(min_n) # 最 低 价 / 均 价 
vol = volume[-1] # WH 

return now = close[-1] / close[0] s 区 间 收 益 率 

std = np.std(np.array(close), axis=0) # 区 间 标 准 差 
+ Bit Rh He MBAR x 

# features 用 于 存放 因子 


features = [close_mean, volume_mean, max_mean, min_mean, vol, return_now, 


std] 


x_all.append (features) 
+ 准备 算法 需要 用 到 的 数据 
for i in range(len(days close) - 20): 


if days closeli + 20] > days closeli + 15]: 
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coe 


def 


label = 1 
else: 
label = 0 

y_all.append (label) 
x train = z allj: <=1] 
y_train = y all[: -1] 
* 训练 SVM 
context.clf = svm.SVC(C-1.0, kernel-'rbf', degree-3, gamma-'auto', 
f0-0.0, shrinking-True, probability-False, 

tol-0.001, cache size-200, verbose-False, max iter--1, 
decision function shape-'ovr', random state-None) 

context.clf.fit(x train, y train) 
print (' 训 练 完成 !') 
on_bar(context, bars): 
bar = bars[0] 
# 获取 当前 年 月 日 
today = bar.bob.strftime('%Y-%m-%d"') 
# 获取 数据 并 计算 相应 的 因子 
+ 于 星期 一 的 09:31: 00 进行 操作 
# 当前 bar 的 工作 日 
weekday = datetime.strptime(today, '$Y-&m-$d').isoweekday() 
+ 获取 模型 相关 的 数据 
# 获取 持仓 


position = context.account() .position (symbol=context.symbol, 


side=PositionSide Long) 


+ 如 果 bar 是 新 的 星期 一 且 没 有 仓位 ， 就 开始 预测 
if not position and weekday == 1: 
# 获取 预测 用 的 历史 数据 
data = history n(symbol-context.symbol, frequency-'ld', end time-today, 


count-15, 
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fill missing-'last', df-True) 

close = data['close'].values 
train max x = data['high'].values 
train min n - data['low'].values 
train amount - data['amount'].values 
volume - [] 
for i in range (len(close)): 

volume temp = train amount[i] / close[i] 

volume.append(volume temp) 
close mean = close[-1] / np.mean (close) 
volume mean = volume[-1] / np.mean (volume) 
max mean = train max x[-1] / np.mean(train max x) 


min mean = train min n[-1] / np.mean(train min n) 


vol = volume[-1] 
return_now = close[-1] / close[0] 
std = np.std(np.array(close), axis=0) 
得 到 本 次 输入 模型 的 因子 
features = [close_mean, volume_mean, max_mean, min_mean, vol, return_now, 
std] 
features = np.array(features).reshape(1, -1) 
prediction = context.clf.predict (features) [0] 
+ 若 预测 值 为 上 涨 ， 则 开 仓 
if prediction == 1: 
+ 获取 昨 收盘 价 
context.price = close[-1] 
# 把 浦发 银行 的 仓位 调 至 95% 
order target percent (symbol-context.symbol, percent=0.95, 
order type-OrderType Market, 
position side-PositionSide Long) 
print ('SHSE. 600000 以 市 价 单 开 多 仓 到 仓位 0.95') 
+ 当 涨 幅 大 于 10%， 平 掉 所 有 仓位 止 盘 
elif position and bar.close / context.price >= 1.10: 
order close all() 
print('SHSE.600000 以 市 价 单 全 平 多 仓 止 盈 ') 
# 当时 间 为 周 五 并 且 跌 幅 大 于 2% 时 ， 平 掉 所 有 仓位 止 损 
elif position and bar.close / context.price < 1.02 and weekday == 5: 
order close all() 
print('SHSE.600000 以 市 价 单 全 平 多 仓 止 损 ') 
if name == ' main ': 
ver 
strategy id 策略 ID, 由 系统 生成 
filename 文件 名 ,请 与 本 文件 名 保持 一 致 
mode 实时 模式 :MODE_LIVE 回 测 模式 :MODE_BACKTEST 
token 绑 定 计算 机 的 ID, 可 在 系统 设置 - 密 钥 管理 中 生成 
backtest start time 回 测 开始 时 间 
backtest end time 回 测 结束 时 间 
backtest adjust 股票 复权 方式 不 复权 :ADJUST_NONE 前 复权 :ADJUST_PREV 后 复 
#:ADIUST_POST 
backtest_initial_cash 回 测 初始 资金 
backtest commission ratio 回 测 佣金 比例 
backtest_slippage_ratio 回 测 滑 点 比例 


ven 

run (strategy id-'strategy id', 
filename='main.py', 
mode-MODE BACKTEST, 


token-'token id', 
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backtest start time-'2017-07-01 09:00:00", 
backtest end time-'2017-10-01 09:00:00', 
backtest adjust-ADJUST PREV, 
backtest initial cash-10000000) 


测试 结果 如 图 9-16 所 示 。 


图 9-16 支持 向 量 机 回 测 结果 


9.6 小 结 


本 章 带领 大 家 进行 了 线性 回归 的 基础 学 习 ， 介 绍 了 一 元 回归 和 多 元 回归 的 基本 概念 ， 讲 
解 了 回归 分 析 的 计算 方法 。 这 些 内 容 可 能 有 些 难度 ， 希 望 读 者 量力 而 行 。 

本 章 使 用 了 一 个 简单 的 例子 去 实践 线性 回归 的 拟 合 方法 。 虽 然 这 是 一 个 非常 简单 的 例 
子 ,但 是 这 个 例子 可 以 变化 的 部 分 很 多 ， 例 如 可 以 加 入 前 一 日 的 高 低 点 判定 以 及 将 其 改 成 逻 
辑 回归 ， 就 像 9.4 节 中 的 示例 一 样 。 

9.5 节 的 支持 向 量 机 采用 的 是 机 器 学 习 的 方法 ， 这 也 是 未 来 发 展 的 趋势 。 

本 章 主要 介绍 了 一 些 常用 的 策略 算法 ， 无 论 是 线性 回归 、 罗 辑 回 归 ， 还 是 最 后 的 支持 向 
量 机 ， 都 是 通过 建立 模型 拟 合 影响 因子 对 真实 结果 的 量化 模拟 ， 涉 及 开盘 价 、 闭 盘 价 、 最 高 
价 、 最 低 价 以 及 交易 量 等 基本 面 数据 ， 并 且 涉 及 若干 “技术 性 ”因子 。 
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第 10 
< MSE 22 Ba A > 


回归 分 析 是 最 常用 的 量化 策略 之 一 。 前 面 在 回归 模型 的 基础 讲解 中 ， 对 使 用 Python 进行 
回归 模型 计算 做 了 介绍 ， 包 括 使 用 回归 模型 对 股价 进行 预测 以 及 使 用 逻辑 回归 帮助 股票 买卖 
者 进行 决策 等 。 

事实 上 ， 更 多 的 回归 模型 应 用 于 对 股票 的 基本 面 数据 进行 分 析 ， 例如 经 典 的 CAPM 模 
型 、Fama-French 三 因子 模型 以 及 最 新 的 PB_ROE 模型 。 这 些 都 是 已 经 应 用 于 现实 中 的 金融 
市 场 并 获得 认同 和 较 好 的 收益 的 经 典 模型 。 图 10-1 所 示 为 回归 模型 的 示例 。 


Forecasting Autocorrelated Time Series 


api 


E Band © api 


apip 


图 10-1 回归 模型 


本 章 着 重 介绍 Fama-French 三 因子 模型 和 PB ROE 模型 ， 这 也 是 目前 常用 的 模型 方法 ， 
CAPM 模型 由 于 一 些 问 题 被 Fama-French 模型 所 替代 ， 因 此 并 不 重点 介绍 ， 只 做 简单 的 讲 
解 。 


10.1 capM 模型 简介 


资本 资产 定价 模型 (Capital Asset Pricing Model，CAPM) 是 由 美国 学 者 夏普 (William 
Sharpe) 、 林 特 纳 (John Lintner) 、 特 里 诺 (Jack Treynor) MÆ (Jan Mossin) 等 人 于 
1964 年 在 资产 组 合理 论 和 资本 市 场 理论 的 基础 上 发 展 起 来 的 。 

证 券 市 场 中 资产 的 预期 收益 率 与 风险 资产 之 间 的 关系 ， 以 及 均衡 价格 的 形成 原因 ， 是 现 
代金 融 市 场 价格 的 理论 支柱 ， 广 泛 应 用 于 投资 决策 和 公司 理财 领域 。 

CAPM 资产 定价 模型 假设 所 有 投资 者 都 按 马 科 维 欧 的 资产 选择 理论 进行 投资 ， 对 期 望 收 
益 、 方 差 和 协 方差 等 的 估计 完全 相同 ， 投 资 人 可 以 自由 借贷 。 基 于 这 样 的 假设 ，CAPM 资产 
定价 模型 研究 的 重点 在 于 探求 风险 资产 收益 与 风险 的 数量 关系 ， 即 为 了 补偿 某 一 特定 程度 的 
风险 ， 投 资 者 应 该 获得 多 少 的 报酬 率 。 


10.1.1 CAPM 定价 模型 的 提出 

马 科 维 茨 〈Markowitz) 的 分 散 投资 与 效率 组 合 投资 理论 ， 第 一 次 以 严谨 的 数理 工具 向 人 
们 展示 了 一 个 风险 厌恶 的 投资 者 在 众多 风险 资产 中 构建 最 优 资产 组 合 的 方法 。 应 该 说 ， 这 一 
理论 带 有 很 强 的 规范 (normative) 意味 ， 告 诉 投资 者 应 该 如 何 进行 投资 选择 。 

但 问题 是 ， 在 20 世纪 50 年 代 ， 即 便 有 了 当时 刚刚 诞生 的 电脑 的 帮助 ， 在 实践 中 应 用 马 
科 维 茨 的 理论 仍然 是 一 项 烦琐 、 令 人 生 厌 的 高 难度 工作 ; 或 者 说 ， 与 投资 的 现实 世界 脱节 得 
过 于 严重 ， 进 而 很 难 完全 被 投资 者 采用 。 美 国 普林斯顿 大 学 的 鲍 莫 尔 (William Baumol) 在 
其 1966 年 的 一 篇 探讨 马 科 维 茨 - 托 宾 体 系 的 论文 中 就 谈 到 ， 按 照 马 科 维 茨 的 理论 ， 即 使 以 较 
简化 的 模式 ， 要 从 1500 只 证 券 中 挑选 出 有 效率 的 投资 组 合 ， 当 时 每 运行 一 次 电脑 需要 耗费 
150 美元 ~300 美元 ， 而 如 果 要 执行 完整 的 马 科 维 蒋 运算， 所 需 的 成 本 至 少 是 前 述 金额 的 SO 
倍 ， 而 且 还 必须 有 一 个 前 提 ， 就 是 分 析 师 必须 能 够 持续 且 精 确 地 估计 标的 证 券 的 预期 报酬 、 
风险 及 相关 系数 ， 否 则 整个 运算 过 程 将 变 得 毫 无 意义 。 

正 是 由 于 这 一 问题 的 存在 ， 从 20 世纪 60 年 代 初 开始 ， 以 夏普 、 林 特 纳 和 莫 辛 为 代表 的 
经 济 学 家 开始 从 实证 的 角度 出 发 ， 探 索 证 券 投 资 的 现实 ， 即 马 科 维 茨 的 理论 在 现实 中 的 应 用 
攻 否 得 到 简化 。 如 果 投 资 者 都 采用 马 科 维 茨 资产 组 合理 论 选 择 最 优 资产 组 合 ， 那 么 资产 的 均 
衡 价 格 将 如 何在 收益 与 风险 的 权衡 中 形成 ? 或 者 说 ， 在 市 场 均衡 状态 下 ， 资 产 的 价格 如 何 依 
风险 而 确定 ? 

这 些 学 者 的 研究 直接 导致 了 CAPM 的 产生 。 作 为 基于 风险 资产 期 望 收益 均衡 基础 的 预测 
模型 之 一 ，CAPM 阐述 了 在 投资 者 都 采用 马 科 维 茨 的 理论 进行 投资 管理 的 条 件 下 市 场 均衡 状 
态 的 形成 ， 把 资产 的 预期 收益 与 预期 风险 之 间 的 理论 关系 用 一 个 简单 的 线性 关系 表达 出 来 ， 
即 认为 资产 的 预期 收益 率 与 衡量 该 资产 风险 尺度 的 B 值 之 间 存 在 正 相关 关 系 。 

应 该 说 ， 作 为 一 种 阐述 风险 资产 均衡 价格 决定 的 理论 ， 单 一 指数 模型 或 以 之 为 基础 的 
CAPM 不 仅 大 大 简化 了 投资 组 合 选择 的 运算 过 程 ， 使 马 科 维 茨 的 投资 组 合 选择 理论 朝 现实 世 
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界 的 应 用 迈进 了 一 大 步 ， 而 且 也 使 得 证 券 理论 从 以 往 的 定性 分 析 转 入 定量 分 析 ， 从 规范 性 转 
入 实证 性 ， 进 而 对 证 券 投 资 的 理论 研究 和 实际 操作 ， 甚 至 整个 金融 理论 与 实践 的 发 展 都 产生 
了 巨大 影响 ， 成 为 现代 金融 学 的 理论 基础 。 

当然 ， 近 几 十 年 ， 作 为 资本 市 场 均衡 理论 模型 关注 的 焦点 ，CAPM 的 形式 已 经 远 远 超越 
了 夏普 、 林 特 纳 和 莫 辛 提出 的 传统 形式 ， 有 了 很 大 的 发 展 ， 如 套利 定价 模型 、 跨 时 资本 资产 
定价 模型 、 消 费 资 本 资产 定价 模型 等 ， 目 前 已 经 形成 了 一 个 较为 系统 的 资本 市 场 均衡 理论 体 
系 。 


10.1.2 CAPM 定价 模型 的 公式 与 假设 

当 资本 市 场 达到 均衡 时 ， 风 险 的 边际 价格 是 不 变 的 ， 任 何 改变 市 场 组 合 的 投资 所 带 来 的 
边际 效果 是 相同 的 ， 即 增加 一 个 单位 的 风险 所 得 到 的 补偿 是 相同 的 。 按 照 B 的 定义 ， 代 入 均 
衡 资本 市 场 条 件 下 ， 得 到 资本 资产 定价 模型。 


1. CAPM 的 定价 模型 
定价 模型 如 下 : 
Ra=rf+Ba X (rm—rf) 


rf (Risk Free Rate) 是 无 风险 回报 率 (相对 于 一 年 期 国债 ) 。 
Ba 是 证 券 的 Beta 系数 。 

rm 是 市 场 期 望 的 回报 率 (Expected Market Retum ) , 

rm 一 于 是 股票 市 场 溢 价 (Equity Market Premium, EMP) . 


CAPM 公式 中 的 右边 第 一 个 是 无 风险 收益 率 ， 其 一 般 使 用 一 年 期 国债 。 如 果 股 票 投资 者 
需要 承受 额外 的 风险 ， 那 么 将 需要 在 无 风险 回报 率 的 基础 上 多 获得 相应 的 溢价 。 股 票 市 场 溢 
价 就 等 于 市 场 期 望 回报 率 减 去 无 风险 回报 率 。 证 券 风 险 溢价 就 是 股票 市 场 溢价 和 一 个 B 系数 
的 乘积 。 

2. CAPM 定价 模型 的 假设 

但 是 事实 上 ，CAPM 定价 模型 需要 大 量 的 假设 ， 归 类 如 下 : 

© ”投资 者 希望 财富 越 多 越 好 ， 效 用 是 财富 的 函数 ， 财 富 又 是 投资 收益 率 的 函数 ， 因 此 
可 以 认为 效用 为 收益 率 的 函数 。 
投资 者 能 事先 知道 投资 收益 率 的 概率 分 布 为 正 态 分 布 。 
投资 风险 用 投资 收益 率 的 方差 或 标准 差 标 识 。 
影响 投资 决策 的 主要 因素 为 期 望 收益 率 和 风险 两 项 。 
投资 者 都 遵守 主宰 原则 (Dominance Rule) ， 即 同一 风险 水 平 下 ， 选 择 收 益 率 较 高 
的 证 券 ; 同一 收益 率 水 平 下 ， 选 择 风险 较 低 的 证 券 。 

可 以 在 无 风险 折 现 率 及 的 水 平 下 无 限制 地 借入 或 贷 出 资金 。 
所 有 投资 者 对 证 券 收益 率 概率 分 布 的 看 法 一 致 ， 因 此 市 场 上 的 效率 边界 只 有 一 条 。 
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所 有 投资 者 具有 相同 的 投资 期 限 ， 而 且 只 有 一 期 。 

所 有 的 证 券 投 资 可 以 无 限制 地 细 分 ， 在 任何 一 个 投资 组 合 里 可 以 含有 非 整 数 股份 。 
买卖 证 券 时 没有 税 负 及 交易 成 本 。 

所 有 投资 者 可 以 及 时 免费 获得 充分 的 市 场 信息 。 

不 存在 通货 膨胀 ， 且 折 现 率 不 变 

投资 者 具有 相同 预期 ， 即 他 们 对 预期 收益 率 、 标 准 差 和 证 券 之 间 的 协 方差 具有 相同 
的 预期 值 。 


上 述 假 设 表明 : 第 一 ， 投 资 者 是 理性 的 ， 而 且 严 格 按照 马 科 维 茨 模型 的 规则 进行 多 样 化 
的 投资 ， 并 将 从 有 效 边界 的 某 处 选择 投资 组 合 ， 第 二 ， 资 本 市 场 是 完美 /完全 市 场 ， 没 有 任何 
摩擦 阻碍 投资 。 

但 是 问题 在 于 ， 这 些 假 设 太 过 于 完美 主义 ， 任 何 一 个 现实 中 的 交易 者 或 者 现实 中 的 股票 
交易 场所 都 不 可 能 达到 CAPM 的 要 求 。 


3. CAPM 资本 资产 定价 模型 的 优 缺 点 
(OD 优点 


CAPM 最 大 的 优点 在 于 简单 、 明 确 。 它 把 任何 一 种 风险 证 券 的 价格 都 划分 为 三 个 因 
de: 无 风险 收益 率 、 风 险 的 价格 和 风险 的 计算 单位 ， 并 把 这 三 个 因素 有 机 结合 在 一 起 。 
CAPM 的 另 一 优点 在 于 它 的 实用 性 。 它 使 投资 者 可 以 根据 绝对 风险 而 不 是 总 风险 来 
对 各 种 竞争 报价 的 金融 资产 做 出 评价 和 选择 。 这 种 方法 已 经 被 金融 市 场 上 的 投资 者 
广 为 采 纳 ， 用 来 解决 投资 决策 中 的 一 般 性 问题 。 


(2) 局 限 性 
当然 ，CAPM 也 不 是 尽善尽美 的 ， 它 本 身 存 在 着 一 定 的 局 限 性 ， 表 现在 : 


假设 市 场 处 于 完善 的 竞争 状态 。 但 是 ， 实 际 操作 中 完全 竞争 的 市 场 是 很 难 实现 的 ， 
“做 市 ”时 有 发 生 。 

假设 投资 者 的 投资 期 限 相同 且 不 考虑 投资 计划 期 之 后 的 情况 。 但 是 ,市场 上 的 投资 
者 数目 众多 ， 他 们 的 资产 持 有 期 间 不 可 能 完全 相同 ， 而 且 现 在 进行 长 期 投资 的 投资 
者 越 来 越 多 ， 所 以 这 个 假设 就 变 得 不 那么 现实 了 。 

假设 投资 者 可 以 不 受 限制 地 以 固定 的 无 风险 利率 借贷 ， 这 一 点 也 是 很 难 办 到 的 。 
假设 市 场 无 摩擦 。 但 实际 上 ， 市场 存在 交易 成 本 、 税 收 和 信息 不 对 称 等 问题 。 
“理性 人 假设 ”和 “一 致 预期 假设 ”。 这 两 个 假设 也 是 一 种 理想 状态 。 


10.1.3 CAPM 中 Beta 的 定义 


CAPM 中 的 Beta 值 与 在 前 面 用 于 衡量 股票 变动 性 的 Beta 值 相似 ， 这 里 请 读者 注意 。 

按照 CAPM 的 规定 ，Beta 系数 是 用 以 度量 一 项 资产 系统 风险 的 指针 ， 是 用 来 衡量 一 种 证 
券 或 一 个 投资 组 合 相 对 总 体 市 场 的 波动 性 〈volatility) 的 一 种 风险 评估 工具 。 

也 就 是 说 ， 如 果 一 只 股票 的 价格 和 市 场 的 价格 波动 性 是 一 致 的 ， 那 么 这 只 股票 的 Beta 值 
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就 是 1。 如 果 一 只 股票 的 Beta HE 1.5， 就 意味 着 当 市 场 上 升 10% 时 ， 该 股票 价格 上 升 
15%; 而 市 场 下 降 10% 时 ， 股 票 的 价格 亦 会 下 降 15%。 

Beta 值 是 通过 统计 分 析 同 一 时 期 市 场 每 天 的 收益 情况 以 及 单个 股票 每 天 的 价格 收益 来 计 
算 的 。1972 F, AFR RK: HK FE (Fischer Black) 、 迈 伦 . 斯 科 尔 斯 (Myron 
Scholes) 等 在 他 们 发 表 的 论文 《资本 资产 定价 模型 : 实例 研究 》 中 ， 通 过 研究 1931 年 到 
1965 年 纽约 证 券 交 易 所 股票 价格 的 变动 ， 证 实 了 股票 投资 组 合 的 收益 率 和 它们 的 Beta 值 间 
存在 着 线性 关系 ， 如 图 10-2 所 示 。 

当 Beta 值 处 于 较 高 位 置 时 ， 投 资 者 便 会 因为 股份 的 风险 高 而 相应 地 提升 股票 的 预期 回报 
率 。 例 如 ， 如 果 一 个 股票 的 Beta 值 是 2.0， 无 风险 回报 率 是 3%， 市 场 回报 率 (Market 
Retum) 是 7%6， 那 么 市 场 溢价 (Equity Market Premium) 就 是 4%6 (7%-3%) ， 股 票 风险 溢 
价 (Risk Premium) 为 8% (2X4%， 用 Beta 值 乘 以 市 场 溢价 ) ， 那 么 股票 的 预期 回报 率 则 为 
11% 〈89%6+39%6， 即 股票 的 风险 溢价 加 上 无 风险 回报 率 ) 。 


Iz] 


图 1-CAPM 中 每 月 平均 收益 率 和 Beta 值 的 检验 


(96) PASS Hames 


Source: Black, Jensen and Scholes, 1972 


图 10-2. CAPM 中 的 Beta 值 


理论 上 来 说 ， 一 个 风险 投资 者 需要 得 到 的 溢价 可 以 通过 CAPM 计算 出 来 。 换 名 话说， 我 
们 可 以 通过 CAPM 知道 当前 股票 的 价格 是 否 与 其 回报 相 吻 合 。 

但 是 事实 上 ， 在 计算 某 些 股票 时 ， 由 于 缺乏 历史 数据 ， 其 Beta 值 不 易 估计 。 此 外 ， 由 于 
经 济 不 断 发 展 变化 ， 各 种 证 券 的 Beta 值 也 会 产生 相应 的 变化 ， 依 靠 历史 数据 估算 出 的 Beta 
值 对 未 来 的 指导 作用 也 要 打折 扣 。 因 此 ，Beta 值 的 计算 有 时 候 难以 确认 。 

对 于 CAPM 模型 的 设计 和 回 测 ， 这 里 不 再 详细 介绍 ， 有 兴趣 的 读者 可 自行 完成 。 


10.2 Fama-French 三 因子 模型 

CAPM 作为 一 种 资产 定价 模型 统治 了 金融 市 场 很 长 一 段 时 间 。 直 到 后 来 ，Fama 和 
French (JAA 10-3) 两 个 人 研究 股票 超额 收益 率 的 时 候 发 现 了 一 个 神奇 的 现象 : 有 两 类 股票 
的 历史 平均 收益 率 会 高 于 一 般 人 们 所 预测 的 收益 率 。 它 们 是 小 公司 股票 以 及 具有 较 高 股权 账 
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面市 值 比 的 股票 。 

Fama 和 French 分 别 分 析 了 原因 ， 他 们 认为 : 

e 市值 比 较 小 的 公司 通常 规模 比较 小 ， 公 司 相对 而 言 没 那么 稳定 ， 因 此 风险 较 大 ， 需 
要 获得 更 高 的 收益 来 补偿 。 

@ 此 外 就 是 账面 市 值 比 。 账 面市 值 比 就 是 账面 的 所 有 者 权益 除 以 市 值 (以 下 简称 
BM). X BM 较 高 ， 则 说 明 市 场 上 对 公司 的 估 值 比 公司 自己 的 估 值 更 低 。 这 些 公 
司 一 般 都 是 销售 状况 或 者 盈利 能 力 不 是 十 分 好 的 公司 ， 因 此 相对 于 低 BM 的 公司 来 
说 需要 更 高 的 收益 来 补偿 。 

一 般 对 于 股票 收益 的 解释 认为 收益 风险 同 源 。 市 场 风 险 是 唯一 能 给 股票 带 来 超额 收益 的 
风险 。 但 是 基于 以 上 两 个 事实 的 研究 发 现 ， 除 了 市 场 风 险 外 ，Fama-French 认为 市 场 上 还 存 
在 市 值 风 险 、 账 面市 值 比 风 险 等 ， 据 此 建立 的 模型 被 称 为 “Fama-French 三 因子 模型 ”。 本 
节 旨 在 深入 浅 出 地 介绍 三 因子 模型 的 思想 并 提供 一 个 实用 的 三 因子 策略 。 


图 10-3 Fama 和 French 


10.2.1 Fama-French 模型 的 基础 公式 

1992 年 ，Fama 和 French 对 美国 股票 市 场 决定 不 同 股票 回报 率 差异 的 因素 的 研究 发 现 ， 
对 于 传统 的 股票 模型 来 说 ， 股 票 市 场 的 Beta 值 不 能 解释 不 同 股票 回报 率 的 差异 。 在 此 基础 
上 ， 有 实证 研究 表明 ， 股 票 市 值 、 账 面市 值 比 、 财 务 杠杆 (leverage ) il ili Em (8) Be 
(E/P) 等 指标 可 以 很 好 地 解释 股票 收益 。 

于 是 ，Fama 和 French 在 1992 年 发 表 了 一 篇 文章 ， 把 这 些 因子 都 考虑 进去 ， 研 究 1963 
年 ~1990 年 在 NYSE. AMEX 和 NASDAQ 交易 的 股票 〈 除 金融 类 股票 外 ) 的 平均 收益 和 这 
些 因 子 的 关系 。 在 横 截 面 回归 (cross-section regression) 后 发 现 ， 在 独立 检验 4 者 对 平均 收 
益 的 影响 时 ，4 者 都 表现 出 了 很 强 的 解释 能 力 ; 而 在 进行 多 变量 回归 时 ， 市 值 和 账面 市 值 比 
这 两 个 因子 吸收 了 另外 两 个 因子 的 解释 能 力 ， 成 为 解释 平均 收益 的 决定 性 变量 。 公 式 如 下 : 


Ri=aitbiRm+siE(SMB)+liE(HMD+ei 
这 里 的 Ri 指 的 是 股票 相对 无 风险 投资 〈 一 年 期 国债 ) 的 期 望 额外 收益 率 。 
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Ri-E(ri—1f) 
此 外 ， 公 式 中 还 有 一 个 额外 参数 Rm， 为 市 场 相 对 无 风险 投资 的 期 望 超额 收益 率 。 
E(SMB) 是 小 市 值 公司 相对 大 市 值 公司 股票 的 期 望 超额 收益 率 ，E(HMI) 则 是 高 B/M 公司 
股票 比 起 低 B/M 公司 股票 的 期 望 超额 收益 率 ， 而 最 后 一 项 是 回归 残 差 项 。 


10.2.2 Fama-French 模型 的 实现 与 回 测 
根据 上 文 的 介绍 ， 使 用 Fama-French 模型 需要 对 涉及 的 因子 进行 相关 分 析 ， 总 结 如 下 : 
e ”计算 市 场 收益 率 、 个 股 的 账面 市 值 比 和 市 值 ， 并 对 后 两 个 进行 分 类 。 
€ ”根据 分 类 得 到 的 组 合 分 别 计算 其 市 值 加 权 收 益 率 、SMB fe HML. 
€ ”对 各 个 股票 进行 回归 (假设 无 风险 收益 率 等 于 0) 得 到 Alpha 值 。 
€ 选取 Alpha 值 小 于 0， 且 将 Alpha 值 由 小 到 大 排列 后 ， 值 最 小 的 10 只 股票 进入 标的 
池 。 
© 平 掉 不 在 标的 池 的 股票 并 等 权 买 入 在 标的 池 的 股票 。 
使 用 掘 金 量化 的 代码 实现 如 下 : 
【程序 10-1] 


# coding-utf-8 

from future import print function, absolute import, unicode literals 
import numpy as np 

from gm.api import * 


from pandas import DataFrame 


def init(context): 

* 每 月 第 一 个 交易 日 的 09:40 定时 执行 algo 任务 

schedule (schedule func=algo, date_rule='1m', time rule='09:40:00') 

print(order target percent (symbol-'SHSE.600000', percent-0.5, 
order type-OrderType Market, 

position side-PositionSide Long) 

# 数据 滑 窗 

context.date = 20 

+ 设置 开 仓 的 最 大 资金 量 

context.ratio = 0.8 

+ 账面 市 值 比 的 大 /中 /小 分 类 

context.BM BIG = 3.0 

context.BM MID = 2.0 

context.BM SMA = 1.0 

+ 市 值 大 /小 分 类 

context.MV BIG = 2.0 

context .MV_SMA = 1.0 
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+ 计算 市 值 加 权 的 收益 率 ，Mv 为 市 值 的 分 类 ，BM 为 账目 市 值 比 的 分 类 
def market value weighted(stocks, MV, BM): 
select = stocks[(stocks.NEGOTIABLEMV == MV) & (stocks.BM == BM)] 
market value = select['mv'].values 
mv total = np.sum(market value) 
mv weighted = [mv / mv total for mv in market value] 
stock return = select['return'].values 
+ 返回 市 值 加 权 的 收益 率 的 和 
return total = [] 
for i in range(len(mv weighted)): 
return total.append(mv weighted[i] * stock return[i]) 
return total - np.sum(return total) 


return return total 


def algo(context): 
# 获取 上 一 个 交易 日 的 日 期 
last day = get previous trading date(exchange-'SHSE', date=context.now) 
# 获取 沪 深 300 成 分 股 
context.stock300 = get history constituents (index-'SHSE.000300', 
start_date=last_day, 


end_date=last_day) [0]['constituents'].keys() 

# 获取 当天 有 交易 的 股票 

not suspended = get history instruments (symbols-context.stock300, 
start date-last day, end date-last day) 

not suspended - [item['symbol'] for item in not suspended if not 
item['is suspended']] 

fin = get fundamentals (table-'tq sk finindic', symbols-not suspended, 
start date-last day, end date-last day, 

fields-'PB,NEGOTIABLEMV', df-True) 

# 计算 账面 市 值 比 ， 为 P/B 的 倒数 

Tin['PBU] = (fin[tPB'] ** Ty 

# 计算 市 值 的 50% 的 分 位 点 ， 用 于 后 面 的 分 类 

size gate = fin['NEGOTIABLEMV'] .quantile (0.50) 

+ 计算 账面 市 值 比 的 308 和 708 分 位 点 ， 用 于 后 面 的 分 类 

bm gate = [fin['PB'].quantile(0.30), fin['PB'].quantile(0.70)] 

fin.index = fin.symbol 

x return - [] 

# 对 未 停牌 的 股票 进行 处 理 

for symbol in not_suspended: 


计算 收益 率 


close = history n(symbol-symbol, frequency-'1d', count-context.date + 1, 
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end time-last day, fields-'close', 
Skip suspended-True, fill missing-'Last', 

adjust-ADJUST PREV, df-True)['close'].values 

stock return - close[-1] / close[0] - 1 

pb = fin['PB'] [symbol] 

market value = fin['NEGOTIABLEMV'] [symbol] 

+ 获取 [股票 代码 . 股票 收益 率 ， 账 面市 值 比 的 分 类 ， 市 值 的 分 类 ， 流 通 市 值 ] 

if pb < bm gate[0]: 

if market value < size gate: 


label = [symbol, stock_return, context.BM SMA, context.MV_SMA, 
market_value] 
else: 
label = [symbol, stock return, context.BM SMA, context.MV BIG, 


market_value] 
elif pb « bm gate[1]: 
if market value « size gate: 


label = [symbol, stock return, context.BM MID, context.MV SMA, 
market value] 
else: 
label = [symbol, stock return, context.BM MID, context.MV BIG, 


market value] 
elif market value « size gate: 
label = [symbol, stock return, context.BM BIG, context.MV SMA, 
market value] 
else: 
label = [symbol, stock return, context.BM BIG, context.MV BIG, 
market value] 
if len(x return) == 0: 
x return - label 
eise: 
x return = np.vstack([x return, label]) 
stocks = DataFrame(data-x return, columns-['symbol', 'return', 'BM', 
'NEGOTIABLEMV', 'mv']) 
stocks.index = stocks.symbol 
columns = ['return', 'BM', 'NEGOTIABLEMV', 'mv'] 
for column in columns: 
stocks[column] = stocks [column] .astype (np.float64) 
+ 计算 SMB .HML 和 市 场 收 益 率 
# 获取 小 市 值 组 合 的 市 值 加 权 组 合 收益 率 
smb s = (market value weighted(stocks, context.MV SMA, context.BM SMA) + 
market value weighted(stocks, context.MV SMA, context.BM MID) + 
market value weighted(stocks, context.MV SMA, context.BM BIG)) VS 


+ 获取 大 市 值 组 合 的 市 值 加 权 组 合 收益 率 
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smb_b 


smb = 


= (market value weighted(stocks, context.MV BIG, context.BM SMA) + 
market value weighted(stocks, context.MV BIG, context.BM MID) + 
market value weighted(stocks, context.MV BIG, context.BM BIG)) VANS 

smb s - smb b 


+ 获取 大 账面 市 值 比 组 合 的 市 值 加 权 组 合 收益 率 


hml b 


= (market value weighted(stocks, context.MV SMA, 3) + 
market value weighted(stocks, context.MV BIG, context.BM BIG)) / 2 


# 获取 小 账面 市 值 比 组 合 的 市 值 加 权 组 合 收益 率 


hml_s 


hml = 
close 


des 


= (market value weighted(stocks, context.MV SMA, context.BM SMA) + 
market value weighted(stocks, context.MV BIG, context.BM SMA)) / 2 

hml b - hml s 

= history n(symbol-'SHSE.000300', frequency-'ld', count-context.date 


end time-last day, fields-'close', skip suspended-True, 
fill missing-'Last', adjust-ADJUST PREV, 


df-True)['close'].values 


market return - close[-1] / close[0] - 1 


coff pool - [] 
# 对 每 只 股票 进行 回归 获取 其 alpha ffi 


for stock in stocks.index: 


x value = np.array([[market return], [smb], [hml], [1.0]]) 


y_value = np.array([stocks['return'] [stock]]) 
* OLS 估计 系数 
coff = np.linalg.l1stsq(x value.T, y value) [0] [3] 


coff_pool.append (coff 
* 获取 alpha 最 小 并 对 小 于 0 的 10 只 股票 进行 操作 ( 若 少 于 10 只 ， 则 全 部 买 入 ) 
stocks['alpha'] = coff pool 


Stocks 


= stocks[stocks.alpha < 0].sort values (by-'alpha').head(10) 


symbols pool - stocks.index.tolist() 


positions = context.account().positions() 
# 平 不 在 标的 池 的 股票 
for position in positions: 

symbol = position['symbol'] 


JE 


symbol not in symbols_pool: 
order_target_percent (symbol=symbol, percent=0, 


order_type=OrderType Market, 


position side-PositionSide Long) 


print (7 市 价 单 平 不 在 标的 池 的 ' symbol) 


# 获取 股票 的 权重 

percent = context.ratio / len(symbols pool) 
+ 买 在 标的 池 中 的 股票 

for symbol in symbols pool: 


order target percent (symbol=symbol, percent=percent, 
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order_type=OrderType Market, 
position_side=PositionSide Long) 
print (symbol, "以 市 价 单调 多 仓 到 仓位 '，Percent) 


if name ==" main ': 


run (strategy id-'63e92f59-1386-11e8-bbe9-902b3463cafl', 
filename=' 多 因子 选 股 .py'， 
mode=MODE BACKTEST, 
token='a71a8083b68e73817e93£7£196b030482abe5939', 
backtest start time-'2017-01-03 08:00:00", 
backtest end time-'2017-12-31 16:00:00', 
backtest adjust-ADJUST PREV, 
backtest initial cash-100000, 
j 


这 里 根据 Fama-French 模型 的 思想 对 市 值 进行 分 类 ， 分 成 高 、 中 、 低 三 部 分 ， 之 后 根据 
市 值 对 其 进行 计算 。 这 是 最 常用 的 一 种 市 值 计算 方法 。 最 终结 果 如 图 10-4 所 示 。 


10-4 Fama-French 模型 回 测 结果 


可 以 看 到 ， 相 对 在 回 测 时 期 ，Fama-French 模型 获得 了 比较 好 的 成 功率 ， 可 以 较 好 地 获 
取 超额 收益 。 

三 因子 模型 对 投资 界 有 深远 的 影响 ， 将 股票 按 市 值 和 账面 市 值 比 这 样 的 特征 进行 划分 ， 
就 是 其 中 一 例 。 股 票 按照 市 值 大 小 划分 为 小 盘 股 、 中 盘 股 和 大 盘 股 ， 按 账面 市 值 比划 分 为 价 
值 型 、 平 衡 型 和 成 长 型 。 而 衍生 的 股票 指数 的 编制 方式 、 基 金 持 股 风格 的 划分 也 受到 三 因子 
模型 的 影响 。 

Fama-French 在 1993 年 提出 三 因子 模型 之 后 ，Carhart 在 1997 年 提出 了 动量 因子 
(Momentum) 从 而 得 到 四 因子 模型 ，Fama-French 2015 年 在 三 因子 的 基础 上 继续 增加 了 两 个 
因子 : BARRERA RMW 和 投资 因子 CMA， 得 到 五 因子 模型 。 三 因子 模型 开启 了 人 们 对 
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因子 投资 的 研究 ， 随 着 对 因子 的 认识 不 断 扩 展 ， 除 了 有 风格 因子 外 ， 还 有 策略 因子 ， 比 如 介 
于 被 动 投资 和 主动 投资 之 间 的 Smart Beta 策略 。 


PB-ROE 回归 模型 的 使 用 


PB-ROE 是 另 一 种 回归 模型 。 

众所周知 ， 选 股 的 核心 思想 在 于 寻找 价格 低 于 内 在 价值 的 股票 ， 从 而 获取 未 来 价格 修复 
的 收益 。 具 体 来 看 ， 符 合 价值 投资 理念 的 标的 首先 要 具有 良好 的 基本 面 ， 其 次 要 有 合理 的 价 
格 。PB-ROE 选 股 模型 便 是 价值 投资 中 的 一 种 经 典 方法 。 该 模型 中 ，ROE 作为 基本 面 指标 ， 
用 于 衡量 公司 质地 是 否 优 良 ，PB 作为 估 值 指标 ， 用 于 衡量 当前 价格 是 否 低估 。 


10.3.1 PB-ROE 模型 介绍 
PB-ROE 是 英文 Price/Book ratio-Retum On Equity 的 缩写 。 其 中 PB 与 ROE 的 含义 如 下 : 


PB 王 股价 /账面 价值 
ROE 王 [( 净 利润 一 优先 股 股利 )/ 期 初 普通 股 股东 权益 ]*100% 


账面 价值 的 含义 是 : 总 资产 一 无 形 资产 一 负债 一 优先 股权 益 。 而 所 谓 的 账面 价值 ， 是 公 
司 解散 清算 的 价值 。 因 为 如 果 公司 清算 ， 那 么 债 要 先 还 ， 无 形 资产 则 将 不 复 存 在 ， 而 优先 股 
的 优先 权 之 一 就 是 清算 的 时 候 先 分 钱 。 

一 般 来 说 ， 用 每 股 净 资产 来 代替 账面 价值 ，PB 就 用 市 净 率 来 替代 ， 而 ROE 又 叫 股权 收 
AR, ROE 使 用 净 资 产 收 益 率 来 蔡 代 。 

因此 ， 可 以 简单 地 理解 PB-ROE 就 是 “市 净 率 一 净 资 产 收 益 率 ”。 这 个 模型 的 意思 是 ， 
净 资产 收益 率 高 的 股票 ， 其 实 净 率 也 应 该 高 些 。 从 图 10-5 〈 可 参看 本 书 下 载 包 中 的 图 片 文 
fF) 可 以 看 到 ， 某 年 的 A 股市 场 中 ， 根 据 PB-ROE 回归 图 示 化 的 结果 ， 大 多 数 的 股票 都 在 回 
归 曲 线 的 上 方 ， 从 模型 上 看 ， 其 值 都 被 高 估 。 
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图 10-5 201X 年 市 场 PB-ROE 模型 图 示 
但 是 对 于 严重 落 在 PB-ROE 回归 模型 曲线 下 方 的 标的 股票 ， 并 不 能 简单 地 认为 就 是 被 严 
重 低 估 ， 而 要 综合 考察 其 对 应 当时 的 基本 面 和 外 部 条 件 是 否 有 严重 变化 ， 这 样 才能 选择 到 好 
的 标的 。 


10.3.2 PB-ROE 模型 的 实现 
下 面 使 用 气 金 量化 实现 PB-ROE 模型 。 
第 一 步 : 数据 表 中 PB 值 的 获取 
10.3.1 小 节 介绍 了 PB-ROE 模型 的 基本 概念 ， 对 于 模型 所 要 使 用 的 数据 ， 掘 金 量化 数据 
库 中 有 完整 的 数据 存档 ， 在 这 里 直接 使 用 即 可 。 
通过 查 表 可 得 ，ROE 使 用 的 是 ROEAVGCUT， 其 在 deriv finance indicator 中 。 而 PB 在 
trading derivative indicator 表 中 ， 查 询 函数 如 下 : 


def get fundamentals (table, symbols, start date, end date, 
fields=None, filter=None, order by=None, limit=1000, df=False): 


这 里 需要 注意 的 是 ，table 是 对 应 的 表 名 ， 而 symbols 是 批量 使 用 股票 列表 值 同时 获取 对 
应 的 数据 。 
第 二 步 : 获取 对 应 股票 列表 的 PB 值 


.df = get_fundamentals(table='trading derivative indicator', 


symbols-symbol list, start date-last day, end date-last day,fields-"PB" 


df-True) 
if len( df) == len(symbol list): 
SEI PBT] dto PB 
else: 
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for number in range(len(symbol list) ): 
try: 
.df = get_fundamentals(table='trading derivative indicator', 
symbols-symbol list[number], start date-last day,end date-last day, 
fields-"PB") 


.factor value = tools.get data value( df, "PB") 


df.iloc[number, 1] = factor value[0] 
except: 
df.iloc[number, 1] = np.mean(df["PB"]) 


这 里 首先 使 用 get_fundamentals 函数 读 取 对 应 的 股票 列表 的 PB 值 ， 之 后 对 读 取 的 数据 进 
行 确 认 ， 这 样 做 的 目的 是 防止 数据 产生 确实 值 ， 如 果 测 试 中 的 数据 长 度 不 等 于 股票 列表 的 长 
度 ， 就 使 用 for 循环 单独 获取 对 应 的 PB 值 ， 如 果 产 生 确实 值 ， 就 使 用 已 有 列表 的 均值 对 其 进 
行 填充 。 

而 ROE 数据 的 获取 与 PB 获取 一 样 ， 代 码 段 如 下 : 


_df = get fundamentals (table="'deriv finance indicator', symbols=symbol list, 
start date=last day, end date=last day, fields="ROEAVG", df=True) 


if len( df) == len(symbol list): 
df["ROE"] = df["ROEAVG"] 
else: 


for number in range(len(symbol list)): 
try: 

.df - get fundamentals(table-'deriv finance indicator', 
symbols-symbol list[number], start date-last day,end date-last day, 
fields-"ROEAVG") 

.factor value - tools.get data value( df, "ROEAVG") 


df.iloc[number, 2] = factor value[0] 
except: 
df.iloc[number, 2] - np.mean(df["ROE"]) 


下 面 使 用 前 面 介绍 的 OLS 方法 对 数据 进行 回归 分 析 ， 代 码 如 下 : 


f = df.dropna() 
pb = df["PB"].values # 这 是 了 
roe = df["ROE"].values # 这 是 X 


roe = [] 

for _ in roe : 
roe.append( ) 

pe= p] 

for _ in pb : 
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pb.append( ) 
.roe = sm.add constant (roe) 


model = sm.OLS(pb, roe) 


results = model.fit() 


bias,weight = (results.params) 


首先 清理 缺失 值 ， 之 后 提取 对 应 的 PB 5 ROE 值 组 成 对 应 数列 ，OLS 回归 计算 对 应 的 系 
数组 成 相应 的 回归 曲线 ， 如 图 10-6 所 示 。 
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10-6 经 过 OLS 拟 合 后 的 PB-ROE 曲线 
得 到 对 应 的 参数 后 ， 计 算 单 只 股票 真实 PB 与 拟 合 PB 的 残 差 ， 代 码 如 下 : 


df["new PB"] = bias + df["ROE"]*weight 


df["d value"] = df["PB"] - df["new PB"]  #iX#id value 是 残 差 ， 大 于 0 是 高 估 ， 小 于 0 
是 低估 


df = (df.sort values(["d value"])) 

symbol list = [] 

for in df["symbol"].values: 
symbol list.append( ) 


这 里 计算 的 是 对 应 的 残 差 值 ， 一 般 认 为 残 差 值 大 于 0 是 股票 被 高 估 ， 而 残 差 值 小 于 0 是 
被 低估 。 按 照 残 差 值 由 小 到 大 排列 ， 返 回 列表 。 
PB_ROE 核心 代码 如 下 : 


def PB_ROE 选 股 ( symbol list, now): 
last day = get previous trading date("SHSE", now) 
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symbol list = [] 

bank_list = [] 

stock_company list = [] 

house company list = [] 

wine list = [] 

for in symbol list: 

if ( not in bank list) and ( not in stock company list) and ( not in 
house company list) and ( not in wine list): 
symbol list.append( ) 


.df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 
start date-last day, end date-last day, fields-'TAGRT,NPGRT', filter-"NPGRT » 
21 and TAGRT » 20", df-True) 

.df = df.dropna() 

symbol list = [] 

for in df["symbol"].values: 

symbol list.append( ) 
white list - [] 
symbol list = symbol list + white list 


df = pd.DataFrame([]) 
df["symbol"] = symbol list 


df["PB"] = -999 
df["ROE"] - -999 
# R PB 


_df = get fundamentals (table-'trading derivative indicator', 


symbols-symbol list, start date-last day, end date-last day, fields-"PB", 


df-True) 
if len( df) == len(symbol list): 
df["PB"] = df["PB"] 
else: 


for number in range (len(symbol list)): 
try: 

.df = get fundamentals (table-'trading derivative indicator', 
symbols-symbol list[number], start date-last day, end date-last day, 
fields-"PB") 

.factor value = tools.get data value( df, "PB") 


df.iloc[number, 1] = factor value[0] 


except: 
df.iloc[number, 1] = np.mean (df["PB"]) 
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* K ROE 
_df = get fundamentals (table-'deriv finance indicator', symbols=symbol list, 
start date-last day, end date-last day, fields-"ROEAVG", df-True) 


if len( df) == len(symbol list): 
df["ROE"] = df["ROEAVG"] 
psc 
for number in range(len(symbol list)): 
try: 


.df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-last day, end date-last day, 
ROEAVG") 

.factor value - tools.get data value( df, "ROEAVG") 


df.iloc[number, 2] 
except: 
df.iloc[number, 2] 


.factor value[0] 


np.mean (df ["ROE"]) 


f — df.dropna() 
pb = df["PB"].values # KEY 
roe_ = df["ROE"].values # 这 是 XxX 


roe = [] 

for _ in roe: 
roe.append( ) 

pb = [1 

for _ in pb 5 


pb.append( ) 
.roe - sm.add constant (roe) 


model = sm.OLS(pb, roe) 

results = model.fit() 

bias, weight = (results.params) 

* print(bias," ",weight) 

df["new PB"] = bias + df["ROE"] * weight 

df["d value"]-df["PB"]-df["new PB"] 4 XE d value BRA, AF 0 是 高 估 ， 小 于 0 是 低估 
df = (df.sort values(["d value"])) 

symbol list = [] 


for in df["symbol"].values: 


if ( not in bank list) and ( not in stock company list) and ( not in 


house company list) and ( not in wine list): 
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symbol list.append( ) 


return symbol list 

可 能 有 读者 会 注意 到 ， 这 里 在 导入 股票 列表 的 时 候 ， 分 别 设置 了 3 个 黑 名 单 ， 即 证 券 、 
银行 、 地 产 和 酒 类 (地产 和 酒 类 合并 在 一 起 ) 相关 股票 ， 属 于 这 三 大 板块 就 自动 剔除 。 

这 样 做 的 目的 是 ， 根 据 研究 ， 股 票 市 场 PB-ROE 产生 不 匹配 的 股票 标的 大 多 数 集中 在 证 
券 和 银行 方面 ， 而 酒 类 由 于 长 期 不 被 投资 者 关注 ， 也 容易 产生 不 匹配 的 现象 。 


10.3.3 ”基于 上 证 180 的 股票 回 测 

前 面 已 经 介绍 过 ， 不 同 的 指数 由 于 其 代表 标的 的 不 同 ， 其 入 选 的 指标 和 格式 也 不 尽 相同 。 

上 证 180 指数 (又 称 上 证 成 份 指 数 ， 指 数 代码 000010) 是 上 海 证 券 交易 所 对 原 上 证 30 
指数 进行 了 调整 并 更 名 而 成 的 ， 其 样本 股 是 在 所 有 A 股 股 票 中 抽取 最 具 市 场 代表 性 的 180 种 
样本 股票 ， 自 2002 年 7 月 1 日 起 正式 发 布 。 

作为 上 证 指数 系列 核心 的 上 证 180 指数 的 编制 方案 ， 目 的 在 于 建立 一 个 反映 上 海 证 券 市 
场 的 概貌 和 运行 状况 、 具 有 可 操作 性 和 投资 性 、 能 够 作为 投资 评价 尺度 及 金融 衍生 产品 基础 
的 基准 指数 。 

下 面 将 使 用 上 证 180 进行 回 测 工作 。 

第 一 步 : 解析 股票 池 

进行 回 测 工作 的 第 一 步 是 对 指数 构成 的 股票 进行 解析 ， 掘 金 量 化 提供 了 专用 的 函数 对 其 
进行 解析 ， 代 码 如 下 : 


def get symbol list (index, now) : 


(Ey 
symbol list = get_history constituents (index=index, 
start date-now) [0] .get ("constituents"). 
keys () 
symbol list not suspended = get history instruments (symbols=symbol list, 
start date-now, end date-now) 
symbol list = [item['symbol'] for item in symbol list not suspended if 


not item['is suspended']] 


.Symbol list = symbol list 
symbol list = [] 
for in symbol list: 
symbol list.append( ) 
except:print (index) 
return symbol list 


这 里 get history constituents 函数 根据 日 期 对 指数 进行 解析 ， 之 后 判断 当日 的 个 股 停牌 状 
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态 ， 接 着 使 用 一 个 list 列表 将 数据 读 取出 来 并 返回 。 
第 二 步 : PB_ROE 的 核心 选 股 代码 


PB ROE 核心 选 股 代 码 采 用 上 一 小 节 中 PB ROE 排序 的 计算 方法 ， 在 这 里 添加 了 对 酒 
类 、 地 产 和 银行 等 部 分 需要 剔除 的 标的 的 代码 ， 同 时 增加 了 白 名 单 功能 ， 加 入 原本 不 在 解析 
指数 内 的 股票 。 


def PB_ROE 选 股 (_symbol list, now): 


last_day = get_previous trading date("SHSE", now) 


symbol list = [] 

bank list = tools.get symbol list ("SHSE.000947", now) 

stock company list = tools.get symbol list("SZSE.399975", now) 

house company list = tools.get symbol list("SHSE.000948", now) 

wine list = tools.get symbol list("SZSE.399987", now) 

for in symbol list: 

if ( not in bank list) and ( not in stock company list) and ( not in 

house company list) and ( not in wine list): 


symbol list.append( ) 


_df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 
start date-last day, end date-last day, fields-'TAGRT,NPGRT', filter="NPGRT > 
21 and TAGRT » 20", df-True) 

.df = df.dropna() 

symbol list = [] 

for in df["symbol"].values: 

symbol list.append( ) 


white list = [] 
symbol list = symbol list + white list 


df = pd.DataFrame([]) 
df["symbol"] = symbol list 


df["PB"] = -999 
df["ROE"] - -999 
+ R PB 


_df = get fundamentals (table-'trading derivative indicator', 
symbols-symbol list, start date-last day, end date-last day, fields-"PB", 
df-True) 

if len( df) == len(symbol list): 

GEITER = sheet 
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else: 
for number in range(len(symbol list)): 
ry: 

.df = get fundamentals (table-'trading derivative indicator', 
symbols-symbol list[number], start date-last day, end date-last day, 
fields-"PB") 

.factor value = tools.get data value( df, "PB") 


df.iloc[number, 1] = factor value[0] 
except: 
df.iloc[number, 1] = np.mean(df["PB"]) 


* K ROE 
.df = get fundamentals (table-'deriv finance indicator', symbols-symbol list, 
start date-last day, end date-last day, fields-"ROEAVG", df-True) 
if len( df) == len(symbol list): 
df["ROE"] = df["ROEAVG"] 
else: 
for number in range(len(symbol list)): 
iere e 
_df = get fundamentals (table-'deriv finance indicator', 
symbols-symbol list[number], start date-last day, end date-last day, 
fields-"ROEAVG") 
.factor value - tools.get data value( df, "ROEAVG") 


df.iloc[number, 2] = factor value[0] 
except: 
df.iloc[number, 2] = np.mean (df["ROE"]) 


df = df.dropna() 
pb = df["PB"].values # Xx v 
roe = df["ROE"].values # 这 是 X 


roe = [] 

for Gn roes 
roe.append( ) 

pes. on 

for in pb : 
pb.append( ) 


.roe — sm.add constant (roe) 


model = sm.OLS(pb, _ roe) 
results = model.fit() 
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bias, weight = (results.params) 


# print (bias," ",weight) 

df["new PB"] = bias + df["ROE"] * weight 

df["d value"]-df["PB"]-df["new PB"] + 这 里 d value 是 残 差 ， 大 于 0 是 高 估 ， 小 于 0 是 低估 
df = (df.sort values(["d value"])) 

symbol list — [] 


for in df["symbol"].values: 
if ( not in bank list) and ( not in stock company list) and ( not in 
house company list) and ( not in wine list): 
symbol list.append( ) 


return symbol list 

第 三 步 : 使 用 PB. ROE 进行 回 测 

下 面 使 用 PB ROE 为 核心 进行 股票 回 测 ， 代 码 如 下 : 
【程序 10-2】 


import numpy as np 
from gm.api import * 
import fun 

import os 

import csv 


from MSCI_tools import msci_tools as tools 


import datetime 
back_thresord = 0.97 


def init (context): 


schedule (schedule func-algo, date rule-'l1d', time_rule='09:31:00') 


context.time now = str(str(datetime.datetime.now() .strftime('%Y-%m— 
%d %H:%M:%S')).split(" ")) 

print (context.time_now) 

context.symbol high = {} 

context.symbol low {} 

context.num = 8 # 测 试 7 8 9 最 好 ， 夏 普 对 应 0.82 0.91 0.89 


context.count = 1 


context.black_list {} 


context.flag = True 
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def 


algo (context): 


now = context.now 


last day = get previous trading date("SHSE", now) 


target list = tools.get symbol list ("SHSE.000010",now) 
"mm" 核心 选 股 代码 """ 
symbol list = fun.get target list(target list, now) 


核心 选 股 代码 """ 


symbol list = [] 
for symbol in symbol list: 
symbol list.append (symbol) 


# 取 前 多 少 个 标的 


target list = symbol list[:context.num] 


po 市 价 单 平 不 在 标的 池 的 
positions = Context .account () .positions () 


# 如 标的 池 有 仓位 ， 平 不 在 标的 池 的 股票 仓位 


for position in positions: 
symbol = position['symbol'] 


if (symbol not in target_list): 
order target percent (symbol=symbol, percent=0, 


order type-OrderType Market,position side-PositionSide Long) 


positions = context.account().positions() 
+ 判断 已 经 持 有 的 股 
holded symbol = [] 
for position in positions: 
symbol = position['symbol'] 
holded symbol.append (symbol) 


for symbol in target list: 
if (symbol not in holded symbol): 
data = history n(symbol, frequency="1d", count-2, end time-now, 


fields-"close,open", df-True) 
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open = data["open"].values 
close = data["close"].values 


if open[-1] < close[0] * 1.08: # 这 里 是 对 涨停 板 进行 甄别 ， 就 用 这 个 ， 用 多 少 天 


的 运算 太 慢 

context.symbol high[symbol] = 0 

context.symbol low[symbol] = 9999 

order target percent(symbol-symbol, percent-(1. y 
(context.num))*0.95, order type-OrderType Market, 

position side-PositionSide Long) 
else: 
pass 


def on backtest finished(context, indicator): 
print(context.time now," ",indicator) 


if name == " main ": 
run( 

strategy id-'e98538bc-9378-11e8-9fbc-902b3463cafl', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-"2017-01-01 09:30:00", 
backtest end time-'2017-12-31 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 


) 
这 里 使 用 上 证 180 对 2017 年 全 年 的 数据 进行 回 测 ， 每 日 对 前 5 标的 股票 进行 确定 ， 当 股 
票 超出 前 S 后 剔除 ， 买 入 新 进入 的 股票 。 回 测 结果 如 图 10-7 所 示 。 
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图 10-7 2017 年 PB_ROE 为 核心 的 数据 回 测 结果 
可 以 看 到 ， 对 于 使 用 上 证 180 进行 回 测 ， 其 并 没有 跑 赢 当年 的 沪 深 300 指数 ， 这 可 能 由 


互 
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于 当时 属于 “漂亮 50” 的 权重 股 涨幅 期 间 造成 的 普通 股 涨幅 不 大 。 
更 多 指数 回 测 请 读者 自行 完成 。 


10.3.4 ”使 用 自 定义 股票 池 的 PB-ROE 回 测 


上 证 180 是 基于 已 有 的 指数 组 合 进行 股票 回 测 ， 但 是 对 于 不 同 的 投资 者 来 说 ， 根 据 自 己 
对 股票 的 认识 和 要 求 ， 选 择 的 股票 标的 也 有 所 不 同 ， 因 此 对 于 不 同 的 投资 者 来 说 ， 可 以 根据 
不 同 的 认 知 组 合 不 同 的 股票 池 。 

对 于 不 同 的 股票 组 合 ， 一 般 采 用 条 件 选 股 的 模式 进行 组 合 。 本 小 节 中 核心 股票 的 选择 方 
法 是 PB-ROE 模型 ， 因 此 在 选择 上 以 ROE 为 主 。 


第 一 步 : 获取 全 部 A 股 代码 


实际 上 ， 对 于 全 部 3000 多 只 A 股 来 说 ， 部 分 缺乏 流动 性 或 者 ST 以 及 其 他 原因 不 能 够 被 
大 多 数 投资 者 认可 的 股票 并 不 具有 一 定 的 投资 价值 ， 因 此 在 选择 上 可 以 剔除 。 在 这 里 选用 的 
是 基于 中 证 组 合 的 A 股 入 选 标的 的 股票 ， 指 数 代码 如 下 : 
index list 中 证 规模 = { 
"SHSE.000010": "iE 180", "SHSE.000016": "上 证 50"，"SHSE.000300": " 沪 深 300"， 


"SHSE.000903": "中 证 100", "SHSE.000904": "'PüE200", "SHSE.000905": "中 证 500"， 
"SHSE.000906": "中 证 800"，"SHSE.000907": "中 证 700","SHSE.000852": "中 证 1000"} 


根据 指数 解析 股票 构成 组 合 的 代码 如 下 : 


# 这 里 是 获取 全 A 股 的 股票 列表 

def get symbol set (now): 
index list = index lists.index list 中 证 规模 
symbol list = [] 


for index in index list: 
.Symbol list = tools.get symbol list(index, now) 
symbol list += symbol list 


bank list = tools.get symbol list("SHSE.000947", now) 

stock company list = tools.get symbol list("SZSE.399975", now) 

house company list = tools.get symbol list("SHSE.000948", now) 

wine list = tools.get symbol list("SZSE.399987", now) 

symbol set = set() 

for in symbol list: 

if ( not in bank list) and ( not in stock company list) and ( not in 
house company list) and ( 
. not in wine list): 
symbol set.add( ) 
print("symbol set 建立 完毕 ") 
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return symbol set 


AY DPRE AERIS, EAT set 数据 集 作为 存储 容器 ， 其 好 处 是 不 会 产生 重 
项 。 

第 二 步 : ROE/ROIC 的 方差 小 于 阔 值 

ROE 的 中 文 解释 是 净 资 产 收益 率 ，ROIC 是 资本 回报 率 ， 其 比值 应 该 在 1 的 上 下 浮动 ， 
并 且 方差 小 于 一 个 给 定 的 阔 值 。 这 里 还 需要 注意 的 是 ，ROE 和 ROIC 是 基于 股票 标的 基本 面 
公布 的 数据 ， 每 个 季度 更 新 一 次 ， 因 此 这 里 的 count 是 向 前 多 少 个 季度 的 意思 。 

代码 如 下 : 
# 第 一 步 : 获取 ROE/ROIC 
symbol ROE ROIC list = [] 
for symbol in symbol set: 

有 

.df = get fundamentals n(table-'deriv finance indicator', symbols-symbol, 

count-count, end date-last day, fields-"ROEAVGCUT,ROIC", df-True) 


i 
Ri 


if len( df) « count - 2: 


pass 
elses 

_df = df.dropna() 

_qf[" 礁 利 性 "] = df["ROEAVGCUT"] / _df["ROIC"] 


factor = _dé ("AE") .Values 
dta = [] 


for _ in factor: 


dta.append( ) 
dta std - np.std(dta) 


if dta std « std: 
symbol ROE ROIC list.append (symbol) 
except:pass 
第 三 步 : PETTM 在 一 个 正常 水 平 ， 即 11<PETTM<27 
PETTM 是 滚动 市 鼻 率 的 意思 ， 一 般 要 求 正常 的 市 盘 率 在 11-27 之 间 ， 代 码 如 下 : 


df = get fundamentals n(table-'trading derivative indicator", 
symbols=symbol PSTTM list, count-1, end date-last day, fields-"PETTM", df=True) 
df = df.dropna() 
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df = df[df["PETTM"] > 11] 
df = df[df["PETTM"] « 27] 


symbol PETTM list = [] 
for symbol in df["symbol"].values: 


symbol PETTM list.append (symbol) 


第 四 步 : NPGRT 和 TAGRT 增长 率 复合 要 求 


df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol PETTM list, count-1, end date-last day, fields-"TAGRT,NPGRT", 
df-True) 


df df.dropna() 
df df[(df["TAGRT"] > 10) & (df["TAGRT"] < 39) & (df["NPGRT"] > 10) & 
(df["NPGRT"] < 39) ] 


symbol GRT_list = [] 
for symbol in df["symbol"].values: 
symbol GRT list.append (symbol) 


target list = symbol GRT list 
全 部 股票 池 构建 代码 如 下 : 


def get_target_list_base(now , count = 14, std = 0.11): 
last day = get previous trading date ("SHSE",now) 


symbol set = get symbol set(last day) 
target list = [] 


# 第 一 步 : 获取 RoE/ROIC std 校园 
symbol ROE ROIC list = [] 
for symbol in symbol set: 
try: 
.df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol, count-count, end date-last day, 
fields-"ROEAVGCUT,ROIC", df-True) 


if len( df) « count - 2: 
pass 
else: 
.df = df.dropna() 
_df ["HAItE"] = _d£["ROEAVGCUT"] / df["ROIC"] 
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factor = df["ÉEUffE"].values 
dta = [] 
for _ in factor: 
dta.append( ) 
dta std = np.std(dta) 
if dta std « std: 
symbol ROE ROIC list.append (symbol) 


except:pass 


# 第 二 步 : 这 里 假设 PETTM 在 正常 水 平 , 即 11 < PETTM < 27 

df = get fundamentals n(table-'trading derivative indicator', 
symbols-symbol ROE ROIC list, count-1, end date-last day, fields-"PETTM", 
df-True) 

df = df.dropna() 

df = df[df["PETTM"] > 11] 

df = df[df["PETTM"] < 27] 


symbol PSTTM list = [] 
for symbol in df["symbol"].values: 
symbol PSTTM list.append (symbol) 


# 第 三 步 : NPGRT TAGRT 

df = get fundamentals n(table-'deriv finance indicator', 
symbols=symbol PETTM list, count-1, end date-last day, fields-"TAGRT,NPGRT", 
df-True) 


df df.dropna() 
df df[(df["TAGRT"] > 10) & (df["TAGRT"] < 39) & (df["NPGRT"] > 10) & 
(df£["NPGRT"] < 39) J 


symbol GRT list - [] 
for symbol in df["symbol"].values: 
symbol GRT list.append (symbol) 


target list = symbol GRT list 


return target list 


需要 注意 的 是 ， 这 里 股票 池 是 作者 根据 自己 的 认 知 所 构建 的 ，count 为 向 前 多 少 个 季度 的 
计数 。 


第 五 步 : 建立 自 定义 股票 池 
自 定义 股票 池 中 使 用 了 ROE 与 ROIC 的 比值 ， 这 两 个 真实 值 是 在 季报 中 出 现 的 ， 因 此 更 
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新 时 采用 的 是 每 月 更 新 一 次 ， 即 选择 特定 的 日 期 作为 股票 池 更 新 日 期 ， 日 期 选择 如 下 : 


data list 2014 = [ 

"2017-01-13", "2017-02-15", "2017-03-15", "2017-04-14", "2017-05-15", 
"2017-06-15", 

"2017-07-14", "2017-08-15", "2017-09-15", "2017-10-13", "2017-11-15", 
"2017-12-15", 

"2018-01-15", "2018-02-14", "2018-03-15", "2018-04-13", "2018-05-15", 
"2018-06-15", 

"2018-07-13"] 


每 月 15 日 更 新 数据 ， 但 是 需要 注意 的 是 ， 对 于 15 日 当日 休市 的 股票 ， 作 者 选择 前 一 个 
交易 日 的 数据 进行 更 新 。 


【程序 10-3】 


from gm.api import * 
from MSCI_tools import msci_tools as tools 
import numpy as np 
from MSCI tools import 指数 列表 as index lists 
# 这 里 是 获取 全 A 股 的 股票 列表 
def get_symbol set (now): 
index list = index lists.index list 中 证 规模 
symbol list = [] 


for index in index list: 
.Symbol list = tools.get symbol list(index, now) 
symbol list += symbol list 


bank list = tools.get symbol list("SHSE.000947", now) 

stock company list = tools.get symbol list("SZSE.399975", now) 

house company list = tools.get symbol list("SHSE.000948", now) 

wine list = tools.get symbol list("SZSE.399987", now) 

symbol set = set() 

for in symbol list: 

if ( not in bank list) and ( not in stock company list) and ( not in 
house company list) and ( 
_ not in wine list): 
symbol set.add( ) 

print("symbol set 建立 完毕 ") 

return symbol set 
def get target list base(now , count - 14, std - 0.11): 


last day = get previous trading date ("SHSE",now) 
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symbol set get symbol set(last day) 
target list — [] 


# 第 一 步 : 获取 ROE/ROIC std 校 

symbol ROE ROIC list = [] 

for symbol in symbol set: 
try: 


.df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol, count-count, end date-last day, 
fields-"ROEAVGCUT,ROIC", df-True) 


if len( df) « count - 2: 
pass 
else: 
.df = df.dropna() 
 df["ZUfift"] = _df["ROEAVGCUT"] / df["ROIC"] 


factor = _df["ĦA]tE"] .values 
dta - [] 


for in factor: 


dta.append( ) 
dta std - np.std(dta) 


if dta std « std: 
symbol ROE ROIC list.append (symbol) 
except:pass 


*print(len(symbol ROE ROIC list)) 155 


# 第 二 步 : 这 里 假设 PETTM 在 正常 水 平 , 即 11 < PETTM < 27 
df = get fundamentals n(table-'trading derivative indicator', 
symbols-symbol ROE ROIC list, count-1, end date-last day, 
fields-"PETTM", df-True) 


df = df.dropna() 
df = df[df["PETTM"] > 11] 
df = df[df["PETTM"] « 27] 


symbol PSTTM list = [] 
for symbol in df["symbol"].values: 
symbol PSTTM list.append (symbol) 
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# 第 三 步 ， NPGRT TAGRT 
df = get fundamentals n(table-'deriv finance indicator', 
symbols-symbol PETTM list, count-1, end date-last day, 
fields-"TAGRT,NPGRT", df-True) 


LU 


df df.dropna() 
df df[(df["TAGRT"] > 10) & (df["TAGRT"] « 39) & (df["NPGRT"] > 10) & 
(df["NPGRT"] < 39) ] 


LU 


symbol GRT list - [] 
for symbol in df["symbol"].values: 
symbol GRT list.append (symbol) 


target list = symbol GRT list 


return target list 
data list 2016 = [ 

52016-08155, 272016-09-145, *2016-—10—T457 2016-11-1157 :*2016-—12.—15 8 

a0 Ol SiS 4 UE20TI-d2 Vos, 200g. 03 T5 S20L7 04 tae “ZOU 05. 15r 
ea Ot O06. Io 

0 Oy DA E2OTI OG Ub 2009 formu Oli DO i35, E207 T oa, 
P2UI 12 152, 

"2018-01-15", "2018-02-14", "2018-03-15", "2018-04-13", "2018-05-15", 
"2018-06-15", 
22009-0735 


if name  -- " main ": 
set token ("e8978d765c4822e5a85fcaa73e044065cf17b58b") 
data and target list - [] 


for data in data list 2016: 
target list = get target list base (data) 
while len(target list) == 0: 
data = get previous trading date("SZSE", data) 
target list = get target list base(data) 
data and target list.append(target list) 
print(data, " ", len(target list), " ", target list) 


print ("-— my 
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file name = "data and target list 2016" + ".npy" 


np.save(file name, data and target list) 


这 里 根据 2016 年 至 2018 年 4 月 的 数据 做 出 股票 池 ， 之 后 将 其 存储 为 
data and target list 2016.npy 文件 ， 读 者 可 以 自行 完成 。 


第 六 步 : 使 用 自 定义 股票 池 进行 PB_ROE 模型 选 股 


下 面 使 用 自 定义 的 PB_ROE 模型 对 股票 池 进行 回 测 。 首 先 需 要 注意 的 是 ， 由 于 使 用 
按 月 组 建 股票 池 的 策略 ， 因 此 选择 每 日 对 数据 进行 判定 回 测 的 话 ， 需 要 对 日 期 进行 判定 ， 
代码 如 下 : 


【程序 10-4】 


import numpy as np 
from gm.api import * 
import fun 

import os 

import csv 


from MSCI_tools import msci_tools as tools 


import datetime 
data list 2016 = [ 

22016-08157, 5*52016-09— 145, 0*2016— 10-1407 094201611195, 2920]6-12— omy 

2017-01-13; "2017-02-I5"; "2017-03-15", "2017-04—14", "2017-05-15", 
"2011-06-15", 

2017-07-14"; =2017=08=15%; =2017-09-157; 201 7-10-1387, "2017=11=15", 
7201]—012 L5", 

72018-01—15"*, "2018-02-14", "2018-03-15", "2018-04-13", "2018-05-15", 
"2018-06-15", 

72018-07—137] 


file data - "data and target list 2016.npy" 
arr list - np.load(file data) 

back thresord - 0.97 

def init(context): 


Schedule(schedule func-algo, date rule-'l1d', time rule-'09:31:00"') 


context.time now = str(str(datetime.datetime.now().strftime('$Y-$m- 
$d $H:3M:$S')).split(" ")) 

print(context.time now) 

context.symbol high = {} 

context.symbol low = {} 

context.num = 8 


context.count = 1 
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context.black list = {} 


context.record file = "record.csv" 


context.data and symbol list = {} 
for 1, 2 in zip(data list 2016, arr list): 
context.data and symbol list[ 1] = 2 


context.counter = -1 


context.flag = True 
def algo(context): 


now — context.now 


day time, hour and mins - str(now).split(" ") 


last day - get previous trading date("SHSE", now) 
targrt day = str(day time).split("-")[-1] 


if int(targrt day) » 15: 
if context.flag: 
context.counter += 1 
context.flag = False 
else: 


context.flag = True 


target list = context.data and symbol list[data list 2016[context.counter]] 
print (day time," ",data list 2016[context.counter]) # 不 要 打印 了 

mun 核心 选 股 代码 """ 

_symbol list = fun.get_target_list(target_list, now) 

"核心 选 股 代码 """ 


# 这 里 并 没有 缩小 股票 池 ， 将 其 移 到 下 面 取 标 的 之 后 才 缩小 股票 池 
symbol list = [] 
for symbol in symbol list: 

symbol list.append (symbol) 


+ 取 前 多 少 个 标的 
target list = symbol list[:context.num] # 无 黑 名单 存 在 ， 卖 掉 以 后 又 可 以 买 回 


——— 市 价 单 平 不 在 标的 池 的 


positions = Context -account ().positions() 


# 如 标的 池 有 仓位 ， 平 不 在 标的 池 的 股票 仓位 
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for position in positions: 


symbol = position['symbol'] 


if (symbol not in target_list): 
order_target_percent (symbol=symbol, percent=0, 


order type-OrderType Market,position side-PositionSide Long) 


positions = context.account ().positions() 
* 判断 已 经 持 有 的 股 
holded_symbol = [] 
for position in positions: 
symbol = position['symbol'] 
holded symbol.append (symbol) 


for symbol in target list: 
if (symbol not in holded symbol): 
data = history n(symbol, frequency-"ld", count-2, end time-now, 
fields-"close,open", df-True) 
open - data["open"].values 
close = data["close"].values 
if open[-1] < close[0] * 1.08: # 这 里 是 对 涨停 板 进行 甄别 ， 就 用 这 个 ， 用 多 少 天 
的 运算 太 慢 
context.symbol high[symbol] = 0 
context.symbol low[symbol] = 9999 
order target percent (symbol=symbol, percent-(1. / 
(context.num))*0.95, order type-OrderType Market, 
position side-PositionSide Long) 
else: 


pass 


def on backtest finished(context, indicator): 
print(context.time now," ",indicator) 
res = [context.time now,file data,back thresord,indicator["sharp ratio"], 
indicator["max drawdown"], indicator["pnl ratio"], 
indicator["pnl ratio annual"], 
indicator] 
writer = csv.writer(open(context.record file, 'a+', encoding-'utf8', 
newline-'')) 


writer.writerow (res) 
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strategy id-'e98538bc-9378-11e8-9fbc-902b3463cafl', 
filename-(os.path.basename( file )), 
mode-MODE BACKTEST, 
token-'e8978d765c4822e5a85fcaa73e044065cf17b58b', 
backtest start time-"2016-09-03 09:30:00", 
backtest end time-'2018-04-20 15:00:00', 
backtest initial cash-10000000, 
backtest adjust-ADJUST PREV 

) 


这 里 需要 注意 作者 使 用 的 编程 技巧 ， 在 init 函数 中 形成 对 应 于 日 期 的 字典 格式 文件 ， 之 
后 在 每 日 回 测 的 主 程序 中 对 日 期 进行 判定 ， 早 于 当月 15 日 就 使 用 上 一 次 组 建 的 股票 池 ， 而 晚 
于 15 日 则 使 用 当前 的 股票 池 。 回 测 结果 请 读者 自行 完成 。 


10.4 g 


本 章 主要 讨论 了 回归 模型 的 基础 和 用 法 ， 这 是 目前 最 常用 的 量化 分 析 方法 之 一 。 同 时 ， 
本 章 还 综合 运用 多 因子 选 股 模型 为 回归 分 析 组 成 提供 了 股票 池 。 

可 以 看 到 ， 对 于 不 同 的 投资 者 来 说 ， 其 资金 关注 的 侧重 点 不 同 ， 那 么 组 成 的 股票 池 也 会 
有 千差万别 的 选择 ， 这 里 建议 选择 那些 长 期 稳定 高 增长 的 股票 ， 会 给 投资 者 带 来 丰厚 的 收 
fi 

多 因子 和 回归 分 别 是 量化 投资 里 最 主要 也 是 最 重要 的 两 个 部 分 ， 其 分 别 代表 对 未 来 的 预 
期 以 及 对 现实 的 反映 ， 这 两 种 量化 分 析 方法 相辅相成 ， 既 可 以 交互 ， 也 可 以 独立 使 用 ， 其 决 
定 于 投资 者 的 认 知 能 力 。 

下 一 章 会 介绍 一 个 “另类 ”的 量化 投资 方法 ， 即 “配对 交易 ”， 有 兴趣 的 读者 可 以 深入 
学 习 。 
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第 11 章 
< 配对 交易 的 魔 妃 > 


大 家 小 时 候 应 该 都 玩 过 跷 跷 板 ， 两 个 小 朋友 分 作 两 边 ， 一 头 翘 起 来 ， 一 头 沉 下 去 ， 一 头 
再 翘 起 来 ， 一 头 再 沉 下 去 ， 最 后 两 个 小 朋友 都 玩 得 很 高 兴 。 

如 果 说 股市 交易 有 一 种 工具 能 够 像 跷 跷 板 这 样 ， 有 两 个 “ 跷 跷 板 ” 标 的 ， 当 一 头 的 标的 
价格 低 的 时 候 ， 去 买 入 价格 低 的 投资 产品 ， 而 当 买 入 的 标的 价格 抬 起 时 ， 卖 出 高 价 股票 ， 买 
入 另 一 头 的 低 价 股票 ， 等 待 低 的 那 头 被 抬 起 后 卖 出 。 

可 能 这 里 的 表述 不 是 很 正确 ， 将 其 引申 为 本 章 的 配对 交易 来 说 ， 就 是 基于 两 只 股票 的 价 
差 来 盘 利 ， 对 于 不 同 的 两 只 股票 ， 一 般 而 言 会 存在 一 定 的 价差 ， 而 由 于 其 具有 特定 的 相关 
性 ， 股 价 的 价差 长 期 来 看 是 保持 一 种 稳定 的 状态 。 

但 是 在 实际 市 场 上 ， 由 于 交易 员 的 非 理性 行为 或 者 突 发 事件 的 存在 ， 打 破 了 这 种 稳定 的 
价差 。 

也 就 是 说 ， 两 只 标的 《股票 ) 的 价差 长 期 稳定 ， 但 是 在 某 个 特定 事件 会 出 现价 差 扩 大 的 
现象 。 配 对 交易 就 是 利用 这 种 价差 变化 的 机 会 进行 件 利 ， 卖 出 相对 被 高 估 的 股票 ， 买 入 相对 
被 低估 的 股票 ， 等 价差 减少 ， 股 价 波动 重新 趋 于 稳定 时 ， 结 束 交易 并 获取 收益 。 

配对 策略 是 一 种 经 典 的 量化 交易 策略 ， 配 对 交易 首先 要 找到 合适 的 配对 交易 资产 标的 
而 在 筛选 配对 资产 的 过 程 中 ， 需 要 充分 掌握 一 些 基本 的 统计 学 知识 。 


配对 交易 的 基本 理论 


配对 交易 实际 上 就 是 一 种 基于 统计 学 的 统计 建 模 过 程 。 

进行 配对 策略 最 常用 的 是 统计 学 方面 的 知识 ， 这 里 涉及 相关 系数 、 均 值 方差 等 方面 的 内 
容 ， 相 信 读 者 应 该 不 陌生 。 但 是 除 此 之 外 ， 还 有 一 个 新 的 概念 一 “ 协 整 ”。 这 是 为 配对 交 
易 引 入 的 在 计量 经 济 学 中 特定 出 现 的 一 个 新 的 名 称 。 本 节 将 对 可 能 涉及 的 概念 进行 统一 介 
绍 。 


11.1.1. 相关 性 分 析 

相关 性 的 统计 与 分 析 是 经 济 学 中 常用 的 一 种 方法 。 相 关 性 是 指 当 两 个 因素 之 间 存 在 联系 
时 ， 一 个 典型 的 表现 是 : 一 个 变量 会 随 着 另 一 个 变量 变化 。 相 关 又 分 成 正 相 关 和 负 相 关 两 种 
情况 。 

本 节 我 们 不 讨论 正 负 的 相关 性 ， 而 是 要 看 不 同 的 数据 集 和 中 相关 性 的 绝对 量 。 相 关 性 的 
绝对 值 越 大 ， 可 以 认为 相关 性 越 高 。 一 般 来 说 ， 取 绝对 值 后 ，0~0.09 为 没有 相关 性 ，0.1~0.3 
为 弱 相 关 ，0.3~0.5 为 中 等 相关 ，0.5~1.0 为 强 相关 。 

这 里 不 介绍 具体 的 相关 性 公式 ， 只 介绍 使 用 的 方法 和 代码 设计 。 

第 一 步 : 创建 数据 集 

为 了 简便 起 见 ， 这 里 首先 使 用 恒定 的 线性 方程 表示 两 组 数据 集 : 


arr_a = np.arange(0,100,1) 


arr pag evarriala 下 


这 里 使 用 了 NumPy 作为 数据 的 创建 库 ， 之 后 从 0~100 中 取出 100 个 数据 组 成 一 个 数 
组 : 


[07/72 753 

而 arr b 是 通过 am a 计算 出 的 数据 集 ， 这 里 采用 一 个 线性 方程 对 数据 进行 计算 ， 并 存储 
数据 计算 结果 。 

第 二 步 : 计算 相关 系数 

对 于 相关 系数 的 计算 ，NumPy 中 提供 了 专门 的 函数 corrcoef， 用 于 对 其 内 容 的 相关 性 进 
行 计算 ， 其 结果 打印 如 下 : 


(Sih bo mb 
peres 


除了 常用 的 NumPy Z5, Python 还 提供 了 其 他 方法 计算 数据 的 相关 系数 。pandas 是 另 
一 种 常用 的 计算 库 文件 ， 同 样 ， 也 提供 了 对 不 同 数据 集 之 间 的 相关 度 的 计算 方法 。 


import pandas as pd 


arr a = pd.DataFrame({"arr_a":arr_a}) 
arr b = pd.DataFrame({"arr_b":arr_b}) 

这 里 首先 导入 了 pandas 库 包 ， 之 后 根据 需要 生成 了 对 应 的 DataFrame 文件 ， 并 将 其 起 名 
为 对 应 的 名 称 。 

这 样 还 不 行 ， 对 于 pandas 来 说 ， 相 关系 数 并 不 是 由 pandas 根 函 数 提供 的 ， 而 是 由 
DataFrame 对 象 内 置 的 计算 器 计算 出 的 。 因 此 ， 需 要 将 不 同 的 DataFrame 数组 组 建成 一 个 新 
的 DataFrame 数据 集 。 


arr = pd.concat([arr a,arr b],axis-1) 
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concat 是 连接 函数 ， 将 不 同 的 数据 进行 连接 ，axis 是 内 置 参 数 ， 用 以 决定 从 哪里 进行 连 
接 ， 这 里 由 于 需要 计算 不 同 的 数组 之 间 的 相关 系数 ， 因 此 选择 将 数据 连接 成 不 同 的 行 ， 计 算 
不 同行 之 间 的 相关 系数 。 
arr = pd.concat([arr a,arr b],axis-1) 
corr - arr.corr() 
print (corr) 

这 里 通过 concat 函数 生成 了 一 个 新 的 数据 集 。 需 要 注意 的 是 ， 这 里 在 生成 新 的 数据 集 
时 ， 行 名 称 也 是 被 保留 的 。 

通过 内 置 的 函数 ，corr 可 以 计算 数据 集 之 间 的 相关 系数 ， 最 终 打 印 结果 如 下 

arr a arr_b 


arr a 1.0 1.0 
arr_b 1.0 1.0 


这 里 可 以 看 到 ， 除 了 给 出 结果 外 ， 还 加 上 了 对 应 的 名 称 ， 这 样 可 以 极 大 地 帮助 选取 对 应 
的 数值 进行 计算 。 

通过 上 面 的 例子 可 以 看 到 ， 对 于 不 同 的 数组 ， 根 据 相 关 性 计算 可 以 得 到 对 应 的 相关 系 
数 。 现 在 换 一 部 分 值 重新 计算 其 对 应 的 相关 性 。 

【程序 11-1】 


import numpy as np 


import pandas as pd 


arr a = np.arange(0,100,1) 


arr b = np.random.randint (0,100,100) 


arr a = pd.DataFrame({"arr_a":arr_a}) 


arr_b = pd.DataFrame({"arr_b":arr_b}) 


arr = pd.concat([arr a,arr b],axis-1) 


corr = arr.corr() 


print(corr) 
【程序 11-1] F, am a 的 数值 没有 变化 ， 之 后 am b 通过 一 个 随机 函数 生成 了 100 个 100 
以 内 的 随机 数 。 其 他 相关 性 的 计算 方法 没有 变化 ， 最 后 打印 结果 如 下 
arr a arr b 


arr a 1.000000 0.060579 
arr b 0.060579 1.000000 


可 以 看 到 ， 对 于 采用 随机 的 配对 数据 ， 相 关系 数 变 得 很 小 ， 基 本 上 可 以 忽略 不 计 。 因 此 
可 以 说 ， 两 组 数据 并 没有 相关 性 。 
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1.1.2 均值 、 方 差 与 协 方差 

均值 又 称 为 平均 数 ， 是 表示 一 组 数据 集中 趋势 的 量 数 ， 是 指 在 一 组 数据 中 所 有 数据 之 和 
再 除 以 这 组 数据 的 个 数 。 它 是 反映 数据 集中 趋势 的 一 项 指标 。 

NumPy 中 也 提供 了 计算 均值 的 函数 。 


【程序 11-2】 


import numpy as np 


arr a = np.arange(0,100,1) 
mean = np.mean(arr a) 


print (mean) 
最 终 打 印 结果 如 下 : 
49.5 


在 使 用 概率 论 和 统计 方差 衡量 随机 变量 或 一 组 数据 时 ， 方 差 用 于 度量 离散 程度 。 统 计 学 
中 ， 方 差 用 来 度量 随机 变量 和 其 数学 期 望 (均值 之 间 的 偏离 程度 。 


【程序 11-3】 


import numpy as np 


arr_a = np.arange(0,100,1) 
var = np.var(arr_a) 


print (var) 
最 终 打印 结果 如 下 : 
833.25 
可 以 看 到 ， 数 据 的 方差 很 大 ， 这 表明 对 于 数据 来 说 ， 数 值 并 不 是 在 均值 上 下 均匀 分 布 ， 
而 是 具有 很 强 的 扩散 性 。 
顺便 提 一 下 ， 更 多 的 时 候 比较 数据 的 均衡 性 使 用 的 是 标准 差 ， 也 就 是 方差 的 平方 根 。 
标准 差 在 概率 统计 中 最 常用 于 统计 分 布 程度 上 的 测量 。 标 准 差 定 义 是 总 体 各 单位 标准 值 
与 其 平均 数 离 差 平方 的 算术 平均 数 的 平方 根 。 它 反映 组 内 个 体 间 的 离散 程度 。 
【程序 11-4】 
import numpy as np 
arr_a = np.arange(0,100,1) 


std = np.std(arr a) 
print (std) 


请 读者 自行 打印 完成 。 
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均值 描述 的 是 样本 集合 的 中 间 点 ， 它 告诉 我 们 的 信息 是 很 有 限 的 ， 而 标准 差 描述 的 是 样 
本 集合 的 各 个 样本 点 到 均值 的 距离 的 平均 。 

例如 [0，8，12，20] 和 [8，9，11，12]， 两 个 集合 的 均值 都 是 10， 但 显然 两 个 集合 差别 
很 大 ， 计 算 两 者 的 标准 差 ， 前 者 是 8.3， 后 者 是 1.8， 显 然后 者 较为 集中 ， 故 其 标准 差 小 一 
些 ， 标 准 差 描述 的 就 是 这 种 “散布 度 ”。 

协 方差 是 关于 如 何 调节 协 变量 对 因 变 量 的 影响 效应 ， 从 而 更 加 有 效 地 分 析 实 验 处 理 效应 
的 一 种 统计 技术 ， 也 是 对 实验 进行 统计 控制 的 一 种 综合 方差 分 析 和 回归 分 析 的 方法 。 

相对 于 用 于 描述 一 维 数据 的 标准 差 和 均值 ， 协 方差 主要 用 于 描述 多 维 数据 的 数据 集 之 间 
的 关系 ， 其 定义 公式 也 是 仿照 方差 的 公式 而 来 的 。 同 样 使 用 pandas 计算 不 同 的 数据 集 之 间 的 
协 方差 ， 代 码 如 下 : 


【程序 11-5】 


import numpy as np 


import pandas as pd 


arr a = np.arange(0,100,1) 


arr b = np.random.randint (0,100,100) 


arr a pd.DataFrame({"arr_a":arr_a}) 


arr_b pd.DataFrame({"arr_b":arr_b}) 


arr = pd.concat([arr a,arr b],axis-1) 


cov = arr.cov() 


print (cov) 


这 里 同样 是 随机 生成 了 两 组 数据 集 ， 之 后 使 用 DataFrame 函数 生成 既定 格式 的 数据 ， 再 
将 其 组 合生 成 一 个 新 的 数据 组 。 
cov 是 DataFrame 自 带 的 分 析 函 数 ， 用 于 分 析 不 同 的 数据 集 之 间 的 协 方差 。 打印 结果 如 
F: 
arr a arr b 


arr a 841.666667  -8.045455 
arr b -8.045455 834.825354 


总 结 一 下 ， 协 方差 、 相 关系 数 是 紧密 相关 的 ， 二 者 都 是 用 来 描述 两 个 连续 变量 的 线性 相 
关 关系 。 它 们 的 不 同 点 在 于 : 
@” 协 方差 只 表示 线性 相关 的 方向 ， 取 值 正 无 穷 到 负 无 穷 。 也 就 是 说 ， 协 方差 为 正 值 ， 
说 明 一 个 变量 变 大 ， 另 一 个 变量 也 变 大 ; 取 负 值 说 明 一 个 变量 变 大 ， 另 一 个 变量 变 
小 ; 取 0 说 明 两 个 变量 没有 相关 关系 。 需 要 注意 的 是 ， 协 方差 的 绝对 值 不 反映 线性 
相关 的 程度 。 


247 


e ”相关 系数 不 仅 表示 线性 相关 的 方向 ， 还 表示 线性 相关 的 程度 ， 取 值 [-1.1]。 也 就 是 
说 ， 相 关系 数 为 正 值 ， 说 明 一 个 变量 变 大 ， 另 一 个 变量 也 变 大 ; 取 负 值 说 明 一 个 变 
量变 大 ， 另 一 个 变量 变 小 ; 取 0 说 明 两 个 变量 没有 相关 关系 。 同 时 ， 相 关系 数 的 绝 
对 值 越 接近 1， 线 性 关系 越 显 著 。 通 常情 况 下 ， 取 绝对 值 后 ，0-0.09 为 没有 相关 
性 ，0.1~0.3 22 2548 X, 0.3-0.5 为 中 等 相关 ，0.5~1.0 为 强 相关 。 


协 整 性 的 判定 与 检验 


配对 交易 是 一 种 基于 统计 建 模 分 析 的 交易 策略 ， 它 是 通过 计算 不 同 股票 之 间 是 否 具 有 同 
样 的 趋势 与 走势 进行 股票 交易 的 策略 。 

在 股市 交易 中 ， 由 于 人 们 的 心理 作用 以 及 行业 内 部 的 周期 相似 性 ， 同 行业 中 的 股票 往往 
具有 相同 的 趋势 ， 同 时 涨 跌 受 与 本 行业 相关 的 消息 等 因素 的 影响 。 即 使 股价 在 表现 上 有 所 偏 
离 ， 但 是 最 终 还 是 会 趋 于 一 致 。 这 种 性 质 被 称 为 “ 协 整 性 ”。 


11.2.1 协 整 性 
协 整 性 的 解释 较为 复杂 ， 这 里 先 看 两 只 股票 在 2015 年 的 走势 图 ， 如 图 11-1 所 示 。 


0 50 100 150 200 250 
图 11-1 两 只 股票 2015 年 的 走势 图 


从 图 11-1 中 可 以 看 到 ， 两 只 股票 非常 相似 ， 在 跌 的 时 候 一 起 下 跌 ， 而 涨 的 时 候 会 有 共同 
上 涨 的 趋势 。 更 进一步 可 以 看 到 ， 两 只 股票 的 价差 较为 平稳 ， 其 在 变化 过 程 中 ， 前 进 的 方向 
也 是 一 致 的 。 这 种 性 质 被 称 为 “ 协 整 性 ”。 
在 继续 探讨 协 整 性 之 前 ， 提 出 一 个 新 词 一 一 平稳 性 。 简 单 来 说 ， 平 稳 性 就 是 在 一 个 时 间 
序列 中 不 随 外 界 噪音 改变 而 能 够 保持 稳定 不 变 的 性 质 。 
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E112 MHz 的 有 vas) 


图 11-2 中 有 张 图 ， 可 以 看 到 上 图 即使 随 着 时 间 变动 ， 其 值 也 始终 围绕 着 均值 上 下 波动 ， 
形成 一 个 框 体 ; 而 下 图 是 一 个 非 平稳 序列 ， 它 并 不 能 形成 一 个 有 效 的 框 体 ， 均 值 也 是 随时 间 
而 变动 的 。 
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11-2 平稳 序列 和 非 平稳 序列 图 


前 面 阐述 了 协 方差 与 相关 系数 之 间 的 关系 ， 这 里 还 要 说 明 协 整 性 与 相关 系数 之 间 的 关 
系 。 虽 然 它们 比较 相似 ， 但 是 表述 的 却 不 是 同样 的 内 容 ， 相 关系 数 是 对 两 组 数据 集 直接 的 相 
关 性 进行 计算 ， 而 协 整 性 是 在 不 同 的 数据 之 间 计 算 其 差 值 并 对 其 差 值 进行 分 析 。 

前 面 介绍 了 可 能 会 用 到 的 协 整 性 的 理论 ， 关 于 相关 性 、 均 值 、 协 方差 等 的 计算 和 公式 ， 
这 里 就 不 再 阐述 了 。 下 一 小 节 主 要 介绍 关于 协 整 性 的 检验 和 计算 ， 会 涉及 一 些 公 式 ， 如 果 读 
者 觉得 理解 有 困难 ， 可 予以 略 过 。 


11.2.2 平稳 性 的 检验 方法 

协 整 性 的 第 一 步 是 对 序列 进行 平稳 性 检验 。 

一 般 来 说 ， 平 稳 性 分 为 严 平稳 性 和 弱 平 稳 性 。 严 平稳 性 是 指 一 个 序列 的 分 布 函数 始终 不 
变 ， 而 弱 平 稳 性 是 指 序列 具有 不 变 的 统计 常量 。 一 般 说 的 平稳 性 是 弱 平稳 性 。 在 时 间 序 列 分 
析 中 ， 常 用 “单位 根 检验 ”来 判断 一 个 过 程 是 否 为 弱 平 稳 性 。 
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具体 单位 根 检验 的 方法 已 经 超出 了 本 书 的 范围 ， 有 兴趣 的 同学 可 以 参考 “时 间 序 列 分 
析 ” 等 方面 的 图 书 。 

下 面 介绍 如 何 使 用 Python 进行 单位 根 检验 。 直 接 编 写 程序 进行 单位 根 检验 的 方法 固然 可 
取 ， 但 是 Python 中 有 专门 的 库 包 进行 单位 根 检验 。statsmodels 是 一 个 专门 用 于 统计 建 模 的 工 
具 集 ， 它 包含 时 间 序列 的 单位 根 检验 函数 ， 因 此 可 以 直接 对 其 进行 调用 。 

为 了 更 好 地 解释 协 整 性 的 验证 和 处 理 ， 这 里 采用 分 布 代码 段 的 形式 向 读者 说 明 。 


第 一 步 : 创建 数据 集 


这 里 使 用 NumPy 创建 一 个 非 平稳 数据 集 ， 采 用 一 个 新 的 函数 cumsum。cumsum 是 一 个 
计算 累计 数 的 函数 ， 比 如 cumsum(c(1,2,3,4,5))-(1,142,14243,1424344....)-(1,3,6,10....),. àX 
点 请 读者 自行 测试 。 

【程序 11-6】 


import numpy as np 


import matplotlib.pyplot as plt 


import statsmodels.api as sm 


arr_a = np.random.normal(0, 1, 250) 


arr a = np.cumsum(arr a) + 50 


for i in range(250): 

arr ali] = arr alij = 1i 7-10 
plt.plot (X) 
plt.show() 


am a 和 am b 是 生成 的 两 个 数组 ，arr a 有 一 个 向 上 的 趋势 ， 而 ar b 在 趋势 中 加 上 扰 
动 ， 其 生成 结果 如 图 11-3 所 示 。 


T 
0 50 100 150 200 250 


图 11-3 随机 非 平 稳 序列 
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第 二 步 : 检测 序列 的 平稳 性 

在 前 面 已 经 介绍 过 了 ， 对 平稳 性 检测 需要 先 对 其 进行 单位 根 检测 ，statsmodels 提供 的 
adfuller 函数 可 以 很 好 地 完成 单位 根 检测 的 计算 。 其 代码 如 下 : 
import statsmodels.api as sm 


st = sm.tsa.stattools.adfuller(arr a) 


print (st) 

打印 结果 如 下 : 
(-0.032544928790406935, 0.95575645193568282, 0, 249, ('1$': - 
3.4568881317725864, '5$': -2.8732185133016057, '10$': -2.5729936189738876], 
705.93885714074645) 

这 里 有 5 个 “,” (大 括号 内 是 一 个 整体 ) ， 将 打印 结果 分 成 6 部 分 ， 第 一 个 参数 为 
“Test Statistic”， 第 四 个 参数 为 测试 的 关键 参数 点 。 

对 于 判定 结论 ， 读 者 需要 记 住 的 是 ， 若 第 一 个 参数 小 于 第 四 个 参数 中 的 “1%” 所 对 应 的 
值 ， 则 可 认为 序列 没有 单位 根 ， 为 平稳 序列 ， 若 第 一 个 参数 大 于 第 四 个 参数 中 的 “10% ”所 
对 应 的 值 ， 则 可 认为 序列 存在 单位 根 ， 为 非 平稳 序列 。 完 整 代码 如 下 : 

【程序 11-7】 


import numpy as np 


import statsmodels.api as sm 


arr a = np.random.normal (0, 1, 250) 


arr a = np.cumsum(arr_a) + 50 


for i in range(250): 


arr alij) =~ arr alij) 7/710 
st = sm.tsa.stattools.adfuller(arr a) 


if st[0] > st[4] [110%]: 

print (' 存 在 单位 根 , 为 非 平稳 序列 ') 
elif stip] < stepa Pers I 

print (' 没 有 单位 根 , 为 平稳 序列 ' ) 


打印 结果 如 下 : 
存在 单位 根 , 为 非 平稳 序列 

第 三 步 : 采用 “差分 法 ”重建 序列 

对 于 非 平稳 序列 转化 为 平稳 序列 ， 最 简单 的 办 法 就 是 “差分 法 ”。 非 平稳 序列 往往 一 次 
到 两 次 差分 之 后 ， 就 会 变 成 平稳 序列 。 
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那么 什么 是 差分 呢 ? 很 难 吗 ? 

“差分 法 ”就 是 序列 后 一 点 的 值 减 去 当前 点 的 值 ， 用 公式 表示 为 yryeD。 值 得 注意 的 
是 ， 每 一 次 差分 之 后 ， 都 会 少 一 个 序列 值 。 

经 过 一 次 差分 计算 的 序列 称 为 “一 阶 差分 ”， 以 此 类 推 ， 经 过 n 次 差分 计算 的 序列 称 为 
“n 阶 序列 ”。 

NumPy 中 专门 计算 差分 的 函数 为 diff。 


arr b = np.diff(arr a) 
第 四 步 : 重新 进行 平稳 性 验证 
经 过 以 上 分 析 ， 重 新 对 创建 的 序列 进行 平稳 性 分 析 ， 代 码 如 下 : 
【程序 11-8】 


import numpy as np 
import matplotlib.pyplot as plt 


import statsmodels.api as sm 


ATIS np.random.normal(0, 1, 250) 


arr a = np.cumsum(arr a) + 50 


for i in range(250): 


arr alij) = arr ali) = 4 / 10 


st = sm.tsa.stattools.adfuller (arr_a) 
JE SELON > stris]: 
print ('arr_a 存在 单位 根 , 为 非 平稳 序列 ') 
elif st[0] sh 
print('arr a 没有 单位 根 , 为 平稳 序列 ' ) 


arr b = np.diff(arr a) 
st = sm.tsa.stattools.adfuller(arr b) 


EE SELON S ACTOS ts 

print ('arr_b 存在 单位 根 ,为 非 平稳 序列 ' ) 
elie SEO est pal ISS 

print (‘arr b 没有 单位 根 , 为 平稳 序列 ') 


plt.subplot (211) 
plt.plot(arr a) 
plt.subplot (212) 
plt.plot(arr b) 
plt.show() 
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打印 结果 如 下 : 
arr_a 存在 单位 根 , 为 非 平稳 序列 
arr b 没有 单位 根 , 为 平稳 序列 

可 以 看 到 ， 随 机 生成 的 arr a 为 非 平稳 序列 ， 而 经 过 差分 法 处 理 后 的 序列 arc b 被 修正 为 
平稳 序列 ， 走 势 图 如 图 11-4 所 示 。 


T T T T 
0 50 100 150 200 250 


50 100 150 200 250 
FA 11-4 AEP RSP IRAI FFA 
图 11-4 中 ， 上 图 为 随机 生成 的 非 平 稳 序列 ， 而 下 图 是 经 过 差分 处 理 的 平稳 序列 ， 从 图 中 
可 以 很 容易 看 出 ， 上 图 的 趋势 并 不 确定 ， 只 是 有 一 个 向 下 的 趋势 ， 这 样 找到 一 个 将 其 包围 的 
框 体 较 难 ， 而 图 11-4 下 图 序列 的 震荡 是 在 一 个 杠 体 中 ， 因 此 具有 平稳 性 。 


od 


11.3 配对 交易 


前 面 介绍 了 基于 单一 序列 的 平稳 性 的 判定 ， 下 面 介绍 配对 交易 的 协 整 判断 及 其 完整 的 代 
码 。 


11.3.1 配对 交易 的 算法 


本 节 介绍 配对 交易 的 具体 计算 问题 。 对 于 配对 交易 ， 首 先 需要 掌握 其 算法 步 又， 步骤 如 
F: 


OD 找 出 具有 较 强 相关 性 的 股票 ， 建 立 配对 股票 模式 。 这 样 一 般 要 求 其 相对 系数 大 于 
0.95. 
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(2) 分 别 检验 配对 标的 的 平稳 性 ， 一 般 来 说 ， 股 票 都 不 会 直接 是 平稳 性 序列 ， 因 此 在 其 
基础 上 检验 配对 的 股票 是 否 具有 同 阶 差分 协 整 性 。 

(3) 做 系数 回归 分 析 ， 确 立 系数 和 截 距 值 。 

(4) 用 单位 根 检验 新 生成 的 值 残 差 是 否 平稳 ， 若 平稳 ， 则 两 个 时 序 是 协 整 的 ， 否 则 结 
束 ， 实 验 失 败 。 

(5) 根据 策略 编写 代码 。 


11.3.2 ”提取 股票 的 相关 性 

计算 不 同 序列 的 协 整 性 ， 第 一 步 就 是 计算 不 同 序列 之 间 的 相关 性 ， 只 有 相关 系数 较 大 的 
股票 才能 进行 下 一 步 的 协 整 性 判断 。 

为 了 简便 起 见 ， 这 里 选择 银行 板块 中 的 “建设 银行 ”与 “农业 银行 ”。 需 要 注意 ， 所 针 
对 的 标的 是 经 过 作者 精心 选择 的 ， 现 在 可 能 已 经 不 适用 ， 读 者 从 本 例 中 得 到 更 多 的 是 思路 。 

第 一 步 : 导入 所 使 用 的 库 包 ， 创 建 回 归 分 析 代码 


这 里 所 使 用 的 库 包 较 多 ， 因 此 第 一 步 需要 分 析 不 同 的 股票 标的 之 间 的 相关 系数 。 而 量化 
掘 金 网 站 上 提供 了 相关 行业 的 分 类 代码 ， 如 图 11-5 所 示 。 


Ld poe 


"mm 


SRAME 


1-5 证 监 会 二 级 行业 


从 获取 的 二 级 行业 代码 可 以 获取 全 部 证 券 编号 。 而 根据 获取 的 代码 可 以 获取 相关 的 行业 
股票 代码 ， 完 整 代码 如 下 : 


【程序 11-9】 


import numpy as np 
from gm.api import * 
import pandas as pd 


set token("a7la8083b68e73817e93f7f196b030482abe5939") 
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symbols = get industry("I65") 


df = pd.DataFrame() 


for symbol in symbols: 


try: 


data = history n(symbol=symbol, frequency="1d",count=42,end time-"2018- 


12-30", fields="close", fill missing="last",adjust=ADJUST PREV, df=True) 


data close = pd.DataFrame ((symbol:data["close"]]) 


if len(df) == 


df = (data close) 


else:df = pd.concat([df,data close], axis-1) 


except:pass 


corr = df.corr() 


print ( "相关 系数 大 于 0.9 的 组 合 对 数 有 ' +str( (np.sum(corr.values.ravel()>0.9) - 
len (symbols))/2)+' 对 ' 
print ( "相关 系数 大 于 0.95 的 组 合 对 数 有 ' +str( (np.sum(corr.values.ravel()>0.95) - 
len (symbols))/2)4'Xj' 


) 


) 


print (corr[corr>0.95]) 


从 【程序 11-9】 中 可 以 看 到 ， 首 先 从 掘 金 量化 数据 库 中 读 取 了 其 对 应 的 数据 ， 之 后 按 
DataFrame 生成 对 应 的 数据 格式 ， 使 用 生成 的 DataFrame 数据 集 自 带 的 数据 相关 性 计算 数据 


集 内 部 的 数据 相关 性 。 
打印 结果 如 下 : 


相关 系数 大 于 0.9 的 组 合 对 数 有 2050.0 对 
相关 系数 大 于 0.95 的 组 合 对 数 有 601.0 对 


需要 说 明 的 是 ， 这 里 为 了 演示 配对 程序 ， 选 择 了 软件 和 信息 技术 服务 行业 ， 此 行业 有 
197 只 股票 代码 ， 计 算 其 不 同 的 相关 性 。 代 码 print (cor[corr>0.95]) 打 印 出 了 所 有 相关 系数 大 


于 0.95 的 股票 ， 结 果 如 图 11-6 所 示 。 


SHSE.600289 
SHSE.600536 
SHSE.600556 
SHSE.600571 
SHSE.600588 
SHSE.600602 
SHSE.600654 
SHSE.600701 
SHSE.600718 
SHSE.600728 
SHSE.600892 
SHSE.900901 
SHSE.600406 
SHSE.600410 
SHSE.600446 
SHSE.600476 


SHSE.600289 SHSE.600536 SHSE.600556 SHSE.600571 SHSE.600588 


1.0000 
NaN 
NaN 
NaN 
NaN 
NaN 

9.9503 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


NaN 
1.0200 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
09.9548 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
9.9586 


NaN 
NaN 
1.000 
NaN 


NaN 
NaN 
NaN 
1.0000 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
9.9585 


NaN 
NaN 
NaN 
NaN 
1.0800 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 
NaN 


11-6 ”相关 系数 大 于 0.95 的 部 分 数据 
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可 以 看 到 ， 这 里 不 同 的 股票 标的 之 间 有 不 同 的 相关 系数 ， 根 据 条 件 值 显示 了 部 分 相关 系 
数 大 于 0.95 的 值 。 

为 了 简便 起 见 ， 这 里 并 不 使 用 这 些 对 应 的 标的 ， 而 是 选择 常用 的 银行 标的 : 建设 银行 
(SHSE.601939) 以 及 农业 银行 (SHSE.601288) 。 


第 二 步 : 计算 特定 的 平稳 性 


在 对 特定 的 标的 进行 协 整 性 检验 之 前 ， 需 要 对 两 个 序列 分 别 做 单位 根 检验 ， 前 面 已 经 
绍 过 ， 对 于 不 同 的 序列 必须 要 求 其 具有 协 整 性 ， 如 果 其 达 不 到 严格 要 求 ， 退 一 步 可 以 要 求 其 
在 进行 同 阶 差 分 变换 后 具有 协 整 性 。 (一 般 要 求 最 多 进行 一 阶 差 分 变换 。) 

代码 如 下 : 


【程序 11-10】 


import numpy as np 
import matplotlib.pyplot as plt 
import statsmodels.api as sm 


from gm.api import * 
set_token ("a71a8083b68e73817e93£7£196b030482abe5939") 


ccb = history_n(symbol="SHSE.601939", frequency="1d", count=250, 
end time-"2015-12-30", fields-"close", fill missing-"last", adjust-ADJUST PREV, 
df-True) 


ccb = ccb["close"].values 


st = sm.tsa.stattools.adfuller (ccb) 
if stio] > Stay [1047]: 

print ('ccb 存在 单位 根 , 为 非 平稳 序列 ' ) 
elif stro] < stia plats 

print ('ccb 没有 单位 根 , 为 平稳 序列 ' ) 


ccb = np.diff (ccb) 


st = sm.tsa.stattools.adfuller(ccb ) 


if st[0] > st[4]['10$']: 
print('ccb 存在 单位 根 , 为 非 平 稳 序列 ') 

elif st[0] « st[4] ['1$']: 
print('ccb 没有 单位 根 , 为 平稳 序列 ') 


plt.subplot (211) 
plt.plot (ccb) 
plt.subplot (212) 
plt-plot (ccb ) 
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plt.show() 


这 里 选择 了 建设 银行 2015 年 的 周年 数据 作为 数据 集 进行 存储 ， 由 于 获取 的 数据 为 
pandas 格式 ， 因 此 还 需要 通过 调用 pandas 的 方法 将 其 转化 成 序列 问题 。 打 印 结果 如 下 : 
ccb 存在 单位 根 ,为 非 平稳 序列 
ccb_ 没 有 单位 根 ,为 平稳 序列 

可 以 看 到 ， 第 一 次 检验 生成 的 序列 ， 因 为 存在 单位 根 ， 被 判定 为 非 平 稳 序列 。 而 经 过 差 
分 法 以 后 ， 新 生成 的 序列 则 没有 单位 根 ， 成 为 平稳 序列 ， 如 图 11-7 所 示 。 进 一 步 说 ， 生 成 的 
是 一 个 新 的 一 阶 差分 平稳 序列 ， 这 个 序列 具有 协 整 性 。 


65 
6.0 
55 
5.0 
45 


050 
025 
0.00 
0.25 

EX 


图 11-7 建设 银行 平稳 性 检验 
对 于 农业 银行 的 平稳 性 检验 也 是 如 此 ， 请 读者 自行 验证 。 


1.3.3 协 整 系数 的 计算 方法 


第 一 步 : 协 整 系数 的 计算 
协 整 性 实际 上 就 是 采用 回归 分 析 分 析 两 只 股票 价格 之 间 存 在 的 线性 关系 。 
Y=aX+b 
其 中 ，a 为 回归 系数 ，b 为 常数 项 。 具 体 来 看 ， 回 归 的 计算 方式 有 多 种 ， 这 里 采用 
TensorFlow 模块 进行 分 析 。 注 意 ， 这 里 的 TensorFlow 回归 分 析 的 写法 可 能 不 容易 明白 ， 只 需 
要 记 住 以 下 代码 即 可 : 


import tensorflow as tf 
import numpy as np 
def linear regression(real A,real B): 


real A = np.reshape (real A, (-1,1)) 
real B - np.reshape(real B, (-1, 1)) 
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= tf.placeholder(tf.float32, [None, 1]) 
= tf.placeholder(tf.float32, [None, 1]) # y 为 测试 集结 果 数 据 


weight = tf.Variable(tf.ones([1, 1])) 
bias = tf.Variable(tf.ones([1])) 


y = tf.matmul(x , weight) + bias 


loss = tf.reduce mean(tf.square(y - y )) # 批 量 线性 回归 用 这 个 损失 函数 


train step = tf.train.AdamOptimizer (0.0001) .minimize (loss) 


init = tf.global variables initializer() 
flag - True 
with tf.Session() as sess: 


sess.run(init) 


count = 0 
loss_temp = 0 


while flag: 


feed = {x_: real A, y : real B] 
sess.run(train step, feed dict-feed) 
loss res - sess.run(loss, feed dict-feed) 
if count$10000 == 0: 
print ("正在 运行 次 数 为 :", count," Loss 为 : ",loss res) 


if loss temp == loss_res: 
flag = False 
count += 1 


loss temp = loss res 


weight = sess.run(weight) 
bias = sess.run(bias) 
return weight [0] [0],bias[0] 


这 里 不 做 解释 ， 有 兴趣 的 读者 可 以 自行 学 习 。 代 码 的 主要 作用 是 使 用 传递 进来 的 两 个 参 
数 做 出 形 如 


Y=aX+b 


的 数据 格式 。 这 里 默认 real A=X, read B=Y。 返 回 值 weight[0][0] 和 bias[0] 分 别 代表 其 对 应 
的 系数 以 及 截 距 。 
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具体 的 使 用 也 较为 方便 ， 通 过 导入 对 应 的 Python 文件 ， 直 接 调用 相关 的 数据 处 理 程 序 即 
可 。 
import Tensorflow 批量 单线 性 回归 _ 双 变量 as lr 


weight,bias = lr.linear regression (x,y) 


因此 ， 在 处 理 完毕 关于 不 同 序列 的 平稳 性 检验 后 ， 可 以 使 用 基于 TensorFlow 的 线性 回归 
拟 合 方差 对 结果 进行 拟 合 处 理 。 


【程序 11-11】 


import numpy as np 

from gm.api import * 

import matplotlib.pyplot as plt 
import pandas as pd 

import statsmodels.api as sm 


import Tensorflow 批量 单线 性 回归 _ 双 变量 as lr 
set_token ("a71a8083b68e73817e93£7£196b030482abe5939") 


ccb = history n(symbol-"SHSE.601939", frequency="1d", count=250, 

end time-"2015-12-30", fields-"close", fill missing-"last", adjust-ADJUST PREV, 
df-True) 

abchina = history n(symbol-"SHSE.601288", frequency="1d", count-250, 

end time-"2015-12-30", fields-"close", fill missing-"last", adjust-ADJUST PREV, 
df-True) 


ccv close = ccb["close"] 


abchina close - abchina["close"] 


ccv close.values 


abchina close.values 

weight,bias = lr.linear regression (x,y) 
print ("weight Jj: ",weight) 

print ("bias JJ: ",bias) 

y = weight*x + bias 

plt.plot(y,"b") 


plt.plot(y ,"r") 
plt.show() 
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在 【程序 11-11】 中 ， 首 先 通过 量化 掘 金 的 API 获取 了 两 个 银行 的 数据 集 ， 取 得 2015 年 
的 日 年 线 数据 ， 关 于 每 组 序列 相关 性 的 检验 ， 在 前 面 的 章节 已 经 做 了 处 理 。 

打印 结果 如 下 : 
weight 为 : 0.405483 
bias 为 : 0.889566 


通过 基于 系数 乘积 重新 获取 的 数据 与 原 数据 进行 画图 比较 ， 如 图 11-8 所 示 。 


11-8 ”根据 相关 系数 重建 的 图 像 比较 


第 二 步 : 残 差 的 计算 
根据 算法 的 设计 ， 下 面 对 残 差 进 行 计算 ， 代 码 段 如 下 : 


dvalue = y - y_ 


st = sm.tsa.stattools.adfuller(d value) 
Lf ist [0] > st[4]["10%"]: 

print (d_value 存在 单位 根 ,为 非 平稳 序列 ') 
e£ stlol < st ta lari: 

print(d value 没有 单位 根 ,为 平稳 序列 ' ) 
else:print ("d_value 无 法 判定 ") 


d value 被 设置 成 真实 的 标的 值 与 通过 回归 计算 出 的 值 之 间 的 差 值 ， 之 后 进行 单位 根 的 计 
算 ， 打 印 如 下 : 


d value 没有 单位 根 , 为 平稳 序列 
std = 0.0800697561823 
mean = -0.000215040631916 


这 里 显示 了 3 部 分 内 容 ， 分 别 为 平稳 序列 的 判定 、 标 准 差 的 值 以 及 均值 。 


重点 提醒 ， 如 果 d value 被 判定 成 存在 单位 根 ， 为 非 平 稳 序列 ， 那 么 全 部 的 检验 结束 ， 
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绝对 不 能 进行 差分 变换 ， 没 有 任何 意义 。 
最 后 打印 出 完整 的 残 差 计算 结果 ， 判 定 其 能 够 成 功 的 可 行 性 是 多 少 ， 代 码 如 下 : 


t = sm.tsa.stattools.adfuller(d value) 

output = pd.DataFrame(index-['Test Statistic value','p-value','Lags 
Used','Number of Observations Used','Critical Value(1$)','Critical 
Value(5$)','Critical Value(10$)'],columns-['value']) 
output.iloc[0] [0] = 七 [0] 

output.iloc[1][0] = 七 [1] 

output.iloc[2][0] = 七 [2] 

output.iloc[3][0] = t[3] 

output.iloc[4][0] = t[4]['1$'] 

output.iloc[5][0] = t[4]['5$'] 

output.iloc[6][0] = t[4]['10$'] 

print (output) 


打印 结果 如 图 11-9 所 示 。 


Test Statistic value 
p-value 
Lags Used 


Number of Observations Used 
Critical Value(1%) 
Critical Value(5X) 
Critical Value(16%) 


图 11-9 差 值 的 平稳 性 检测 报告 


从 报告 可 以 看 出 ， 这 里 的 p-value 值 远 小 于 0.05， 因 此 可 以 认为 对 于 残 值 的 检测 是 能 够 被 
接受 的 。 
完整 的 代码 段 如 下 。 


【程序 11-12】 


import numpy as np 

from gm.api import * 

import matplotlib.pyplot as plt 
import pandas as pd 

import statsmodels.api as sm 


import Tensorflow 批量 单线 性 回归 _ 双 变量 as lr 

set token ("a71a8083b68e73817e93f7f196b030482abe5939") 

ccb = history n(symbol-"SHSE.601939", frequency="1d", count=250, 

end time-"2015-12-30", fields-"close", fill missing-"last", adjust-ADJUST PREV, 


df-True) 
abchina = history n(symbol-"SHSE.601288", frequency="1d", count-250, 
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end time-"2015-12-30", fields-"close", 
df-True) 


ccv close = ccb["close"] 


abchina close = abchina["close"] 


i 


X = ccv_close.values 


LU 


abchina close.values 


weight,bias = lr.linear regression (x,y) 
print ("weight A: ", weight) 
print ("bias H: ",bias) 


y_ = weight*x + bias 


plt.subplot (211) 
plt.plot(y, "b") 
plt.subplot (212) 
DLE DLOE Mey ata) 
plt.show() 


d value-y - y 


st = sm.tsa.stattools.adfuller(d value) 
SE SEJO] > SE ales l= 

print('ut 存在 单位 根 ,为 非 平稳 序列 ') 
elie st[0] <st tAalft ia"): 

print (‘ut 没有 单位 根 ,为 平稳 序列 ' ) 
else:print ("ut 无 法 判定 ") 


mean = np.mean(d value) # 均 值 
std = np.std(d_value) # 方 差 


print('std = %s'%(std)) 


print ('mean = %s'% (mean) ) 


t = sm.tsa.stattools.adfuller(d value) 


fill missing-"last", 


adjust-ADJUST PREV, 


output = pd.DataFrame(index-['Test Statistic value','p-value','Lags 


Used','Number of Observations Used','Critical Value(1%)','Critical 


Value(5$)','Critical Value(10$)'],columns-['value']) 


output.iloc[0][0] = t[0] 
output.iloc[1][0] = t[1] 
output.iloc[2][0] = t[2] 
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output.iloc[3][0] = t[3] 
output.iloc[4][0] = t[4]['15$'] 
output.iloc[5][0] = t[4]['5$'] 
output.iloc[6][0] = t[4]['10$'] 
print (output) 


aM - 
eo) 配对 交易 的 魔力 
验证 完 所 配对 的 股票 是 否 可 以 进行 配对 交易 ， 下 面 进入 交易 算法 的 设计 与 回 测 。 因 为 存 
在 配对 的 X 股票 与 Y 股票 ， 所 以 这 里 采用 的 策略 是 : 当 残 差 大 于 2 倍 标准 差 时 ， 买 入 义 股 
票 ， 而 当 残 差 小 于 -2 倍 的 标准 差 时 ， 买 入 Y 股票 。 


11.4.1 前 期 计算 
根据 11.3 节 所 对 应 的 数据 ， 首 先 计 算 和 判定 协 整 性 。 而 计算 所 需要 的 数据 集 ， 可 以 通过 
“量化 掘 金 ” 中 的 “行业 概念 数据 ”获取 ， 如 图 11-10、 图 11-11 所 示 。 


行业 概念 数据 


证 监 会 二 级 行业 


证 监 会 二 级 行业 
据 ， 现 实 的 二 级 市 场 交易 中 ， 经 常会 以 
代码 aR E 
A01 农业 
3D 打 印 AGREES. IPV6 概 念 。 IP 变 现 
A02 林业 ài = = : 
D20 模 式 ammé 。 ST 板块 HS 
A03 畜牧 业 
三 网 融合 上 海 本 地 上 海 自 贸 业 续 预 逢 
A04 渔业 
业绩 预 降 东亚 自 贸 。 丝绸 之 路 云 计算 
os | -家 5 — 
AOs ENTIS CN SRAM MNO (F WRES 
BO6 RSA GREG RES oo | umo 
B07 石油 和 天 然 气 开采 业 充电 桩 免疫 治疗 REES ARRI 


图 11-11 行业 与 板块 数据 
需要 注意 的 是 ， 选 择 根据 行业 分 类 获取 股票 的 数据 集 和 根据 概念 板块 获取 数据 集 ， 它 们 
使 用 的 代码 是 不 同 的 ， 代 码 如 下 : 


symbols = get_industry(symbols) # 根 据 概念 板块 获取 数据 集 
symbols = get_concept (symbols) # 根 据 行 业 分 类 获取 数据 集 
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因此 ， 根 据 获 取 标 的 的 不 同 可 以 在 不 同行 业 进行 获取 。 而 根据 其 获取 不 同行 业 股票 数据 
集 相关 系数 的 代码 如 下 : 


def get max symbols list(symbols = "",frequency-"1d",count 
250,end time-"2017-12-30",num = 10): 


symbols — get concept (symbols) 
df = pd.DataFrame () 


for symbol in symbols: 


CEY: 
data = 
history n(symbol-symbol, frequency-frequency,count-count,end time-end time,fiel 
ds-"close",fill missing-"last",adjust-ADJUST PREV,df-True) 
if len(data) -- count: 
data close - pd.DataFrame((symbol:data["close"]]) 
if len(df) -- 0: 
df = (data close) 


else:df = pd.concat([df,data close], axis-1) 
except:pass 


corr = df.corr() 


# 找 出 相关 性 最 大 的 股票 标的 
corr matrix = corr.as matrix() # 转 化 为 矩阵 
corr matrix[corr matrix == 1] = 0 # 将 1 HAO 


raw, column = corr matrix.shape # get the matrix of a raw and column 
doubel symbols list = [] 


for n in range (num): 


.positon - np.argmax(corr matrix) 
m, n = divmod( positon, column) 


# get the index of max in the a 


corr matrix[m, n] = corr matrix[n, m] = 0 


doubel symbols list.append([corr.index[m],corr.index[n]]) 
return doubel symbols list 


代码 段 中 相关 参数 解释 : symbols 为 股票 集合 ，frequency 为 取样 窗口 的 定义 ，count 为 窗 
口 数量 多 少 ，end_time 为 结束 时 间 ，num 为 最 终 打印 最 多 多 少 个 配对 股票 。 
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11.4.2. 协 整 性 判断 
在 判断 具有 较 高 的 相关 性 后 ， 需 要 对 协 整 性 进行 判断 ， 和 前 面 类 似 ， 代 码 如 下 : 


def check doubel symbols(symbols 1, symbols 2, frequency="1d", count = 250, 
end time-"2017-12-30"): 


symbols 1 data = history n(symbol-symbols 1, frequency-frequency, 
count-count, end time-end time, fields-"close", fill missing-"last", 
adjust-ADJUST PREV, df-True) 

symbols 2 data = history n(symbol-symbols 2, frequency-frequency, 
count-count, end time-end time, fields-"close", fill missing-"last", 
adjust-ADJUST PREV, df-True) 


symbols 1 close = symbols 1 data["close"] 
symbols 2 close = symbols 2 data["close"] 


symbols 1 close.values 


symbols 2 close.values 
weight,bias = lr.linear regression (x,y) 
y = weight*x + bias 


d value-y-y. 
st = sm.tsa.stattools.adfuller(d value) 
SE stia] > SETE TOSE] 
print ('d value 存在 单位 根 ,为 非 平 稳 序列 '， symbols 1, "-", symbols 2,) 
return 
elif st[0] < st[4] [7131]: 
print('d value 没有 单位 根 , 为 平稳 序列 ') 
else: 
print ("d_value 无 法 判定 "，sYmbols 1, "-", symbols 2,) 
return 


mean = np.mean(d value) # 均 值 
std = np.std(d value) # 方 差 


t = sm.tsa.stattools.adfuller(d value) 

output = pd.DataFrame(index-['Test Statistic value','p-value','Lags 
Used','Number of Observations Used','Critical Value(1%)','Critical 
Value(5$)','Critical Value(10$)'],columns-['value']) 

output.iloc[0][0] = t[0] 

output.iloc[1][0] = t[1] 
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output -iloc[2][0] = t[2] 
output.iloc[3][0] = t[3] 
output.iloc[4][0] = t[4]['1%"] 
output.iloc[5][0] = t[4]['5$'] 
output.iloc[6][0] = t[4]['10$'] 


record file = "配对 交易 结果 ' + '.csv' 
i£ t[1] < 0.05: 
print ("可 以 配对 :"， symbols 1, "-", symbols 2,) 


res = [symbols 1, symbols 2,weight,bias,mean,std] 


print (res) 


writer = csv.writer(open(record file, 'a*', encoding-'utf8', newline-'')) 


writer.writerow(res) 


else:print ("P-VALUE 不 合适 "， symbols 1, "-", symbols 2,) 


这 里 有 几 个 需要 说 明 的 地 方 。 

首先 是 参数 的 设计 ，symbol 1 和 symbol 2 分 别 为 需要 配对 的 股票 的 代码 ，frequency 为 
时 间 窗 口 的 设 定 ，count 为 数目 设 定 ，end_time 为 结束 时 间 。 

代码 段 内 部 是 对 标的 的 判断 ， 首 先 根据 线性 回归 算法 算出 回归 系数 ， 之 后 对 差 值 进行 平 
稳 性 检测 ， 再 对 p 值 进行 检测 ， 并 把 符合 要 求 的 数据 存 入 数据 文件 中 。 


11.4.3 ”使 用 量化 掘 金 回 测 系统 对 结果 进行 判定 

在 进行 完 前 期 计算 以 及 协 整 性 判断 后 ， 下 面 使 用 量化 掘 金 对 数据 进行 判断 。 

第 一 步 : 数据 的 设 定 

为 了 简便 起 见 ， 这 里 采用 前 面 验证 好 的 关于 银行 的 配对 组 ， 使 用 “建设 银行 ”与 “农业 
银行 ”进行 配对 。 

首先 获取 数据 ， 采 用 以 250 个 交易 日 的 收盘 价 为 单位 的 数据 进行 验证 ， 由 于 对 两 个 标的 
的 协 整 性 检测 在 前 面 已 经 完成 ， 这 里 直接 跳 过 协 整 性 检测 和 线性 回归 系数 的 计算 ， 结 果 如 
F: 
weight = 0.481477 
bias = 0.481829 


mean = -0.000203539120501 
std = 0.0754807889752 


而 这 些 系数 的 设 定 可 以 在 前 面 的 计算 中 获取 ， 这 里 就 不 再 重复 ， 代 码 段 如 下 : 


from gm.api import * 


266 


def init (context): 


context.symbol 1 = "SHSE.601939" 

context.symbol 2 — "SHSE.601288" 

context.weight — 0.481477 

context.bias = 0.481829 

context.mean = -0.000203539120501 

context.std — 0.0754807889752 

Schedule(schedule func-algo, date rule-'1d', time rule-'09:31:00"') 


context.flagX False 


context.flagY = False 


init 函数 是 初始 化 数据 ， 在 这 里 对 数据 进行 初始 化 设 定 ，schedule 是 设 定 函 数 ， 规 则 定义 为 
每 日 的 9 点 31 分 执行 算法 。 而 context.flagX 和 contextflagY 用 于 对 哪 只 股票 标的 进行 买 入 。 


第 二 步 : 策略 算法 的 设 定 
算法 的 设 定 较为 简单 ， 简 单 地 说 ， 就 是 当 计算 差 值 突破 阔 值 时 进行 买卖 ， 代 码 如 下 : 


def algo(context): 
last day - get previous trading date("SHSE", context.now) 


ccb = 
history (context.symbol_ 1, frequency="1d",start_time=last_day,end_time=last_day, 
fields="close", fill missing-"last",adjust-ADJUST PREV,df-True) 

abchina = history(context.symbol 2, frequency="1d", start time-last day, 
end time-last day, fields="close", fill missing-"last", adjust=ADJUST_PREV, 
df-True) 


ccb = (ccb["close"].values) 


abchina = (abchina["close"].values) 
d value = abchina - (ccb * context.weight + context.bias) 


if (context.flagX and d value < context.mean + context.std) or 
(context.flagY and d value » context.mean - context.std): 
order close all() 


context.flagX False 


context.flagY = False 


if d value > context.mean + 3 * context.std: 


order target percent(symbol-context.symbol 1, percent=1, 
position side-PositionSide Long, rder type-OrderType Market) 
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context.flagX = True 
if d value < context.mean - 3 * context.std: 


order target percent(symbol-context.symbol 2, percent=1, 
position side-PositionSide Long, order type-OrderType Market) 
context.flagY = True 
建仓 以 后 ， 当 差 值 回归 价值 曲线 后 ， 平 仓 全 部 标的 。 这 里 需要 注意 的 是 ， 经 典 的 配对 交 
易 模 型 中 是 对 另 一 个 相对 标记 建 空仓 ， 但 是 由 于 国内 股市 对 于 空仓 的 建立 比较 烦琐 ， 这 里 不 
建议 个 人 使 用 ， 因 此 略 过 不 写 ， 有 兴趣 的 同学 可 以 自行 完成 。 
【程序 11-13】 


Eo coding UCE A EA 


from gm.api import * 


def init (context): 


context.symbol 1 = "SHSE.601939" 
context.symbol 2 = "SHSE.601288" 
context.weight = 0.481477 
context.bias = 0.481829 
context.mean = -0.000203539120501 
context.std = 0.0754807889752 


schedule (schedule func-algo, date rule-'l1d', time_rule='09:31:00') 


context.flagX = False 
context.flagY = False 


def algo(context): 


last day - get previous trading date("SHSE", context.now) 


ccb = history(context.symbol 1, frequency="1d",start_time=last_day 
,end_time=last_day, fields="close", fill missing-"last",adjust-ADJUST PREV,df-Tr 
ue) 
abchina = history(context.symbol 2, frequency="1d", start time-last day, 
end_time=last_day, fields="close", fill_missing="last", adjust=ADJUST_PREV, 
df=True) 


ccb = (ccb["close"].values) 
abchina = (abchina["close"].values) 
d value = abchina - (ccb * context.weight + context.bias) 
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if (context.flagX and d value < context.mean + context.std) or 
(context.flagY and d value » context.mean - context.std): 
order close all() 
context.flagX = False 
context.flagY = False 
if d value > context.mean + 3 * context.std: 


order target percent(symbol-context.symbol 1, percent=1, 
position side-PositionSide Long, 
order type-OrderType Market) 
context.flagX - True 
if d value « context.mean - 3 * context.std: 


order target percent(symbol-context.symbol 2, percent=1, 
position side-PositionSide Long, 
order type-OrderType Market) 
context.flagY - True 
def on backtest finished(context, indicator): 


print (indicator) 


if name == " main ": 
run( 

strategy id-'63e92f59-1386-11e8-bbe9-902b3463cafl', 
filename=' 配 对 交易 气 金 检测 .py'， 
mode=MODE BACKTEST, 
token='a71a8083b68e73817e93£7£196b030482abe5939', 
backtest_start_time='2016-01-03 09:00:00', 
backtest_end_time='2016-12-30 15:00:00', 
backtest_initial_cash=100000, 
backtest_adjust=ADJUST_PREV, 
backtest_slippage_ratio=0.01, 


backtest_commission_ratio=0.0005, 


【程序 11-13】 模 拟 了 建仓 交易 的 程序 ， 这 里 使 用 的 是 农业 银行 与 建设 银行 在 2016 年 的 
回 测 数据 ， 而 参数 的 确定 是 根据 2015 年 农业 银行 与 建设 银行 的 价差 回归 曲线 设计 的 。 最 终结 


果 如 图 11-12 所 示 。 
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图 11-12 ”建设 银行 与 农业 银行 关于 配对 交易 的 回 测 数据 


可 以 看 到 ， 整 个 回 测 收益 保持 在 一 个 比较 稳定 的 状态 ， 在 上 涨 阶段 能 够 比较 迅捷 地 获得 
收益 ， 而 当 整 体 大 盘 趋 势 向 下 时 能 够 保持 回 撤 不 会 太 大 。 


11.5 小 结 


无 论 黑 猎 还 是 白 猫 ， 能 抓 到 老鼠 就 是 好 猫 。 

配对 交易 来 源 于 期 货 交 易 策 略 ， 也 是 一 种 最 基本 的 对 冲 套利 交易 方法 。 当 然 除 此 之 外 ， 
还 有 很 多 好 的 策略 没有 介绍 ， 读 者 可 以 根据 自己 的 需要 自行 挖掘 。 

本 书 全 面 介绍 了 掘 金 量 化 平台 与 使 用 掘 金 量 化 进行 股票 回 测 的 多 种 方法 ， 和 希望 起 到 抛 砖 
引 玉 的 作用 ， 能 够 帮助 读者 对 使 用 量化 投资 有 更 进一步 的 认识 ， 早 日 建立 起 个 人 的 量化 投资 
策略 。 

量化 投资 是 一 门 学 科 ， 也 是 一 种 “ 掘 金 ”的 方法 ， 对 于 有 志 于 从 事 这 一 行 的 从 业者 来 
说 ， 路 漫漫 其 修 远 今 ， 还 需要 更 多 的 努力 与 探索 。 
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